海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2253 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2253)
  • spark 使用的是 local 模式,在临时桌面上内存不足,请问应该如何修改?

    @NEMOlv 之前的临时桌面配置高,后来上线正式桌面了,那个配置就降低了

  • spark 使用的是 local 模式,在临时桌面上内存不足,请问应该如何修改?

    不在要临时桌面写代码,那个内存是固定的,你可以自己选择java组件然后修改内存去写代码

    file

  • spark-submit 提交无法连接 master?

    把.hadoop去了,只留nn1

  • 在启动镜像时,host 与 hostname 不对应?

    @kkone 你对应的机器设置成什么host镜像启动的时候该机器就给你使用什么host,host要与hadoop配置文件中的匹配不然启动会报错

  • 在启动镜像时,host 与 hostname 不对应?

    发现不对应可以打开镜像详情点击修改

    file

  • 可不可以 Web 上搞个上商店,方便购买 VPN 和扩容资源?

    可以,1个月之后上线

  • 使用云平台 Spark 的默认配置可以支持百万级大数据的处理吗?

    能,但是很慢,你至少需要30核 60G内存

  • datanode 挂了?
    • 第一个问题:pipeline指定在第一个datanode上,因为当数据写入过程中,Pipeline负责将数据流传输到各个DataNode。每个DataNode都有一个ACK Queue,用于存储其他DataNode对于收到数据的确认(ACK)信息。在Pipeline的第一个DataNode上维护ACK Queue是为了能够追踪数据流在Pipeline中的状态。也就是说其它DataNode的数据写入是由第一个DataNode跟踪的,如果在客户端上那在有一个写入请求的时候还好,如果是大量并发的时候客户端就容易形成瓶颈了,就会影像写入效率,大数据组件都是分布式的,所以架构设计上都尽量考虑单点问题,那自然不可能是在客户端上。
    • 第二个问题:数据可能会重发,但是这么做保存数据不丢失,不用担心数据重复问题,因为HDFS客户端和DataNode之间会使用序列号等机制来确保数据的有序传输,并且已经确认过的数据不会重复发送。
  • [下载] 大数据面试宝典

    @Arturo 看样子是老粉了,欢迎介绍其它人一起来用

  • 镜像文件如何与我本地 IP 互通?

    用我们的VPN客户端,需要付费,价格参考这里http://www.hainiubl.com/topics/76255

  • 安装包?

    http://www.hainiubl.com/topics/76283

  • 大数据现在用 python 学好一点,还是用 Java 学?

    @被遗忘的十七 而且spark优化必须从java底层考虑

  • 大数据现在用 python 学好一点,还是用 Java 学?

    @被遗忘的十七 学spark之前先前一下scala,spark是用scala写的

  • 大数据现在用 python 学好一点,还是用 Java 学?

    python是个很好的工具语言可以用作补充学习,在大数据方面不要做为主语言去学习

  • 大数据现在用 python 学好一点,还是用 Java 学?

    毫无疑问是java,因为大数据体系所有系统是以java为基础语言打造的,所以学java不仅更方便的做大数据开发工作(因为有java原生的api支持),还能让你更好的去理解原理解决问题等等(因为你会java能看懂源码)。

  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • ...
  • 146
  • 147
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2