海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

447 关注者
2249 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2249)
  • 如何解决 Spark 大规模数据运行情况下,速度越来越慢的情况?

    1、可能有任务之间的依赖 2、spark的内存最好自己代码释放 3、找到运行缓慢的代码

  • spark 如何实现一个快速的 RDD 中所有的元素相互计算?

    不慢啊 根据数据划分不同的partition并行啊

  • Spark 是一种内存计算引擎,为什么他还要依赖 HDFS 这种文件系统呢?

    Spark是一种内存计算引擎 这句话的意思是我不管数据从哪里来 我只管计算 那问题来了 数据从哪里来到哪里去呢?

  • SparkStreaming 消费 kafka 数据,怎样解决大量初始化数据的问题?

    没啥关系吧 你的初始化不就是一次吗 难道天天要初始化吗 只要你的消费速度足够快就可以了

  • python 怎么设置 cuda 的随机数种子 curand?

    设置一个seed就可以了

  • hadoop streaming 中 reduce 程序如何将结果保存在一个文件中输出?

    把reduce的数目设置为1

  • Hadoop 下 reduce 处理量最大是 1G 如果 order by 全局排序的文件超过 1G,系统如何处理?

    reduce默认大小是1g但是可以根据集群资源调节 超过1g了磁盘排序也没有问题

  • 关系数据修改后如何刷新 Hadoop 平台数据?

    再抽一遍

  • 大的文件拆分后,怎样用 Hadoop 进行高效的处理这些小文件?以及怎样让各个节点尽可能的负载均衡?

    Hadoop会启动多个map来处理小文件,节点的资源分配问题是属于yarn的资源调度范畴 详细情况推荐你看看yarn相关方面的书籍

  • spark 开发词频统计应用,最后数据保存到 Hadoop 下的 data 文件里?

    用ls命令看下文档下面的文件 发个截图上来

  • cloudera manager 的 server 提示 cloudera-scm-server dead but pid file exists?请大神解决

    这个错误看起来是机器没有联网,访问不到 parcel repository 中的 manifest文件

  • Hadoop 默认 map 数是 2,块大小 128M,当文件 为 512M 是会有几个 map,有几个 map 并行?

    map的数目是由splitsize 决定的不是由块大小决定的 splitsize= Math.max(minSize, Math.min(goalSize, blockSize)),通常这个值=blockSize,输入的文件较小,文件字节数之和小于blocksize时,splitsize=输入文件字节数之和
    算出来splitsize以后再根据规则计算出map数 如果你指定的是splitsize=blocksize 那就是4个了

  • hadoop 环境搭建及开发的 jdk 版本问题?

    虚拟机中的环境和真实电脑上的环境是隔离的 所以环境之间互不影响

  • 关于 zookeeper 在 hadoop 运用中的一个疑问?

    不会的,你把zk和namenode的功能弄混了

  • Notepad++ 中如何对 hadoop 文件进行修改保存?

    文件名是中文的吗 尽量不要在window上面改 登上服务器在linux下修改

  • «
  • 1
  • 2
  • ...
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2