海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • 如何将 pyspark.sql.dataframe.DataFrame 类型 转换为 list () list [LabelePoint ()] 用的 python

    比如select cust_id as id from jr_data.test2_1_1 t limit 5

  • 我用 python 写个计算 +docker+k8/swarm+ 分布式文件系统 达到的效果和 hadoop 系列有什么区别?

    用python加上docker也能达到分布式计算的效果,但是需要自己解决的问题相比于hadoop和spark系列要麻烦的多,比如怎么对文件的均衡切分,怎么聚合相同的key值,怎么对数据进行join操作等。另外除了写程序spark和hadoop系列还能使用sql的形式对大数据进行计算。

  • 排序、分组 的问题看不懂

    你的二次排序少点东西,你可以参考这里
    http://hainiubl.com/topics/97?

  • 排序、分组 的问题看不懂

    这个CompareTo不是决定是否是升序的,它是用于比较对象的,你这里是用于二次排序的比较,至于为什么升序,shuffle到reducer过程默认就是升序的。那问题来了升降序是由什么决定的呢?可以自己实现一个比较器来决定(不实现也会默认有一个,就是默认升序那个)到reducer中的key是升序还是降序。

  • MapReduce 编程系列

    @HiHadoop 在map排序只能使用集合对象,会用到大量堆内存,而且数据量多会生成多个map进行并行化处理,所以即使能排序也只是拿的数据的局部排序,所以你的需求一个任务做,也只适应小于一个block块的数据。搞的是大数据不能这么想。

  • 海牛部落 hadoop 系列教程(十六):mapreducer 编程,自定义 partition 实现整体排序、自定义组合 key 实现二次排序、assembly 打包方式、集群运行 mr 程序

    HOHO

  • MapReduce 编程系列

    @HiHadoop 太忙了,平时没时间上QQ

  • MapReduce 编程系列

    @HiHadoop reducer里面放一个list,然后在cleanup里输出

  • 信息被删除或无权限查看
  • sparkstreaming

    参考这个教程,http://hainiubl.com/topics/197

  • sparkstreaming

    spark-streaming有个windows窗口函数可以解决你的问题

  • MapReduce 编程系列

    @HiHadoop 你要想会有N个map所以到reducer中的记录不会是一个。到reducer中只拿每个map的最大值,可以减少网络数据的传输
    reduce的排序在suffer的环节中

  • MapReduce 编程系列

    @HiHadoop 关注我们社区,我们这里有一大堆大数据相关知识

  • MapReduce 编程系列

    @HiHadoop mapreduce的话需要两步,spark的话比较好做map->countByKey->sort->top就完事了

  • MapReduce 编程系列

    @HiHadoop 恩,道理都是一样的

  • «
  • 1
  • 2
  • ...
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2