海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

447 关注者
2249 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2249)
  • 在 shell 模式没有问题,但是.scala 文件引用包为啥就出错?

    环境变量问题

  • sparksql 读取数据库是如何分布式执行的?

    读mysql每个executor一个连接 读hive也一样

  • 在 sparkstreaming 中 foreach 算子中开启线程?

    是的

  • spark.shuffle.file.buffer 属于 spark 内存里面的哪一部分?

    用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘

  • 请问 pySpark 中怎么序列化一个对象集合为 RDD?

    你的意思是序列化代码中的 rdd这个变量吗

  • 信息被删除或无权限查看
  • 市面上流行的 R + Hadoop 方案如何解决 R 的内存瓶颈问题?

    我记得这是已经解决了的 但是具体的方法还不是很清楚 r用的少,你可以咨询下http://blog.fens.me/ 这个博主 是我的一个好友

  • 自从 flink 成熟之后,spark 是否慢慢成为鸡肋?

    spark是大而全,好处是一个框架有多个功能 如果就单独功能来说确实不如别的框架

  • Spark/Tez 这些并行计算框架为何不用有环图做执行计划?

    这个思路好 tensorflow就是基于图的 但是定位稍有不同 tf是作为纯计算框架 Spark功能太多了 没法用图兼顾所有功能

  • Hive 集群开通日志审计功能的方法以及需要 license 吗?

    不用收费的hadoop版本就不需要

  • 大数据场景下的查询优化 vs 数据库场景下的查询优化?

    思路一样 方法不同而已

  • 利用 spark ml 库如何实现对 rdd 中每一个 partition 都训练一个 lr 模型?

    在rdd中根据分区数切分不同的训练集进行训练

  • 为什么在 hadoop wordcount reducer 中使用的 sum++ 得出的结果全为 1?

    sum++ 对本地变量进行累加 下次sum初始值还是0 所以无论加多少次 只相当于加了一次

  • mahout 可以不用 hadoop 实现 kmeans 聚类吗?

    可以自己实现 这个并不复杂

  • storm python 无法产生日志?

    python中可以重新定义logging输出 可以import logging模块 也可以修改stdin、stdout到指定的文件

  • «
  • 1
  • 2
  • ...
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2