青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

HDFS 全部文件的元数据是存储在 namenode 节点的硬盘还是内存？

存储在namenode节点的硬盘和内存中
Spark updateStageByKey 产生的大量 checkpoint 小文件在 hdfs 上怎么处理？

自己写个程序把checkpoint文件写成自动追加或是合并，或者写一个外部任务把小文件定时清理
信息被删除或无权限查看
信息被删除或无权限查看
信息被删除或无权限查看
怎样用 kmeans 对类似 00101001110011001...这样的一连串序列进行聚类？

这个字符串问题为啥要用kmeans
spark 中 mllib 是如何将某些机器算法做到分布式并行计算的？

分布式机器学习的主要思想是数据并行加模型并行 spark mlib很多算法是数据并行模型并行是属于ps server的范畴了
spark 伪分布式模式的性能怎么样? 能否替换传统数据处理里的某些场景?

spark的强大之处在于分布式伪分布式学习可以但是谈不上性能
Linux 平台完全分布模式下 Hadoop 实例 wordcount 在 eclipse 编写运行权限问题？

看一下系统配置的tmp目录在哪里保证hadoop用户对这个目录有读写权限
Fuzzy C-means 与 Gaussian Mixture Model 聚类的区别?修改

解决软划分的主要方法就是Fuzzy C-means 与 Gaussian Mixture Model 他们共同的特点就是可以动态调整K的个数，不必人工指定，解决k均值容易收敛到局部最优，效果受初始值影响很大，易受噪声点影响的问题，区别主要是优化函数，思想和算法不一样
Spark 中的 CNN 如何实现分布式计算的？

CNN和RNN这种深度学习算法最好不要用spark搞不然报错了你根本没法解决
spark streaming 任务如何切分，是按照 duration 切分么？

是的按照时间窗口
Spark SQL 如何管理 select 权限，貌似任何用户都可以查询任何一张表？

权限系统需要系统设计框架考虑不到这一层问题
信息被删除或无权限查看
spark 读取 hive 的问题？

报什么错误贴一下