海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • 如果没有 cluster,只在本地安装使用 spark,想要处理大数据集(20G+)会对效率有帮助吗?

    本地的处理的话 spark不是最合适的把 分布式处理数据的起点其实是TB级 少量的话体现不出来优势

  • 如果没有 cluster,只在本地安装使用 spark,想要处理大数据集(20G+)会对效率有帮助吗?

    会啊 本地处理的话没必要用spark 20g的数据用别的方法也行 只要你有足够的计算资源的话,spark的强大之处在于处理tb或是pb的数据,也就是单机处理不了的数据

  • 为什么 pyspark 做 np.array 的迭代计算每个 task 运行速度与分配的 core 成反比?

    pyspark的本质是local运算的 我不太清楚你说的矩阵并行是自己写的 还是调用python现成的 自己写的话应该不会有问题 调用现成的有问题 因为会在每个节点上本地上运行 并没有并行

  • 目前 Hadoop 的前景怎么样?

    主流数据处理工具 现在数据处理标配 如果不会这个就和现在支付不用手机一样尴尬

  • 请问一下,Hadoop 是从哪个版本开始对 S3 对象存储支持的?

    Hadoop2.7以后就行了

  • Python 里怎么样做双重 for 循环比较快呢?

    什么场景?处理什么样的数据?

  • FLINK 中 AggregateFunction 里面的四个方法中的 merge 方法是做什么用的?

    来个demo为:
    给定迭代初始值 (0, 0)。 元组 第一个记录分数,第二个记录数据条数
    输入的数据,获取分数,累加到迭代值元组的第一个元素中,迭代值元组的第二个值记录条数加1 。
    每一个分区迭代完毕后,各分区的迭代值合并成最终的迭代值
    对最终的迭代处理,获取最终的输出结果。
    所以说API说是合并累加器,就是要组内先合并在累加

  • 正则表达式中能否进行大小判断 ?

    写个python脚本处理一下吧 读取每个文件名和文件内容 这个用正则可能比较费劲,确实应该考虑换一个思路,当然不是正则实现不了 如果时间比较紧就换个思路把

  • 大数据工程师日常都做什么工作呢?

    每天都在做etl, 工作强度看不同项目进度把 不会一直忙 但是一个月至少有80%的时间是在忙的

  • 你们的 spark 任务一般跑多久?

    不同任务 不同资源 时间不一样

  • kafka connect 做 ETL,会造成数据丢失或重复吗?如果是的话,该怎么解决?

    会啊 看你怎么配置了
    数据传输的事务定义通常有以下三种级别:
    最多一次: 消息不会被重复发送,最多被传输一次,但也有可能一次不传输。
    最少一次: 消息不会被漏发送,最少被传输一次,但也有可能被重复传输.
    精确的一次(Exactly once): 不会漏传输也不会重复传输,每个消息都传输被一次而且仅仅被传输一次,这是大家所期望的。
    kafka的
    “精确一次”是这么做的,可以通过将提交分为两个阶段来解决:保存了offset后提交一次,消息处理成功之后再提交一次。但是还有个更简单的做法:将消息的offset和消息被处理后的结果保存在一起。比如用Hadoop ETL处理消息时,将处理后的结果和offset同时保存在HDFS中,这样就能保证消息和offser同时被处理了。

  • java 里面,'\24'表示什么意思?求大佬解答?

    把具体问题贴出来

  • 用 zookpeer 的时候出现了这种情况怎么解决?

    把错误截图全一些 后面大段的错误看不见

  • 从 BI 数据仓库转做大数据中数据仓库需要学那些东西?还需要写 java 吗?

    其实区别不大 对sql的要求和bi差不多 但是要掌握更多的工具和编程语言 如hadoop hive hbase redis 语言包括java python scala等

  • JVM 中的这些宏怎么理解?

    这个帮不了你 推荐你看看jvm界的经典之作 《揭秘Java虚拟机:JVM设计原理与实现》

  • «
  • 1
  • 2
  • ...
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2