海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • spark 大量数据读写问题?

    @ruiqi 把regionserver的GC日志dump出来看看GC时间

  • spark 大量数据读写问题?

    你这么设计rowkey会造成数据的倾斜吧?建表的时候做预分region了吗?
    目前你这张表只能优化优化regionserver的jvm参数,让垃圾回收速度快点

  • 信息被删除或无权限查看
  • 信息被删除或无权限查看
  • spark 整合 kafka idea 本地测试报错,spark 版本 1.6.1 ,kafka 版本 kafka_2.10-0.8.2.2。这两个版本是不是不兼容?

    你先安装完winutils再试试。

  • 信息被删除或无权限查看
  • spark 整合 hive,sparkSQL 为什么调不到 hive 中的表?

    你本地有hive-site.xml吗?

  • spark ml ?

    我们一般是先用hive分析那些特征比较有代表性,比如某个特征的点击或者转化比较高。然后再确定特征组合

  • spark 通过 Phoenix 读取 hbase 数据的问题?

    你的zookeeper在虚拟机吧?那你能写 localhost的吗?是不是要写虚拟机的地址?

  • scala 基础 5

    嘿嘿

  • 信息被删除或无权限查看
  • 请问 1T 左右的数量 用 MapReduce 跑 job 数设置为多少合适呢?

    @ling775000 这个看你map输出的数据量了,拉取这个map的数据的reducer需要多长时间从map端把数据读过来。一般reducer的前33%进度都是在shuffle数据。少就快多就慢呗。再少就算是1条也至少有几秒种的时间为reducer做准备吧,比如这个reducer任务被创建起来也要时间吧。

  • 信息被删除或无权限查看
  • 请问 1T 左右的数量 用 MapReduce 跑 job 数设置为多少合适呢?

    partition是可以自定义的,不自定义就默认按key的hash去分,比如你的reducer数量设置为20就按key hbase去分20份key,map output的时候就把每份数据输出0到19个partition分区中,然后20个reducer每个reducer去读自己partition文件的数据。
    你要先理解这个shuffle的流程。默认情况下设置多个reducer数就会有多少个partition分区。也就是reducer任务的并行度。

  • wordcount 之 stage 划分?

    你map之前不都是没有产生宽依赖吗,你的textFile->flatMap->map在一个节点上就可以完成,reduceByKey是聚合操作,也就是说所有前置节点的数据都会shuffle到一个节点上做聚合操作。最后一个rdd产不产生stage要看是不是像reduceByKey产生宽依赖的聚合操作,如果不是聚合操作就不重新划分stage。
    你看的那个书啊,不会是骗子王家林的吧

  • «
  • 1
  • 2
  • ...
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2