青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

449 关注者

2253 评论

308 话题

WeChat
Website
公司
城市

spark 使用的是 local 模式，在临时桌面上内存不足，请问应该如何修改？

@NEMOlv 之前的临时桌面配置高，后来上线正式桌面了，那个配置就降低了
spark 使用的是 local 模式，在临时桌面上内存不足，请问应该如何修改？

不在要临时桌面写代码，那个内存是固定的，你可以自己选择java组件然后修改内存去写代码
spark-submit 提交无法连接 master？

把.hadoop去了，只留nn1
在启动镜像时，host 与 hostname 不对应？

@kkone 你对应的机器设置成什么host镜像启动的时候该机器就给你使用什么host，host要与hadoop配置文件中的匹配不然启动会报错
在启动镜像时，host 与 hostname 不对应？

发现不对应可以打开镜像详情点击修改
可不可以 Web 上搞个上商店，方便购买 VPN 和扩容资源？

可以，1个月之后上线
使用云平台 Spark 的默认配置可以支持百万级大数据的处理吗？

能，但是很慢，你至少需要30核 60G内存
datanode 挂了？
- 第一个问题：pipeline指定在第一个datanode上，因为当数据写入过程中，Pipeline负责将数据流传输到各个DataNode。每个DataNode都有一个ACK Queue，用于存储其他DataNode对于收到数据的确认（ACK）信息。在Pipeline的第一个DataNode上维护ACK Queue是为了能够追踪数据流在Pipeline中的状态。也就是说其它DataNode的数据写入是由第一个DataNode跟踪的，如果在客户端上那在有一个写入请求的时候还好，如果是大量并发的时候客户端就容易形成瓶颈了，就会影像写入效率，大数据组件都是分布式的，所以架构设计上都尽量考虑单点问题，那自然不可能是在客户端上。
- 第二个问题：数据可能会重发，但是这么做保存数据不丢失，不用担心数据重复问题，因为HDFS客户端和DataNode之间会使用序列号等机制来确保数据的有序传输，并且已经确认过的数据不会重复发送。
[下载] 大数据面试宝典

@Arturo 看样子是老粉了，欢迎介绍其它人一起来用
镜像文件如何与我本地 IP 互通？

用我们的VPN客户端，需要付费，价格参考这里http://www.hainiubl.com/topics/76255
安装包？

http://www.hainiubl.com/topics/76283
大数据现在用 python 学好一点，还是用 Java 学？

@被遗忘的十七而且spark优化必须从java底层考虑
大数据现在用 python 学好一点，还是用 Java 学？

@被遗忘的十七学spark之前先前一下scala，spark是用scala写的
大数据现在用 python 学好一点，还是用 Java 学？

python是个很好的工具语言可以用作补充学习，在大数据方面不要做为主语言去学习
大数据现在用 python 学好一点，还是用 Java 学？

毫无疑问是java，因为大数据体系所有系统是以java为基础语言打造的，所以学java不仅更方便的做大数据开发工作（因为有java原生的api支持），还能让你更好的去理解原理解决问题等等（因为你会java能看懂源码）。