如某些算法单次计算依赖全局数据,这个应该做不到分布式并行计算?
一个算法能否并行计算的前提是这个:每个工作节点上的rdd都是已经被切分的数据片,可隔离并行计算? 如果是这样,那分布式机器学习算法的范畴是否比较小?应该也存在的解决方式吧?
分布式机器学习的主要思想是数据并行加模型并行 spark mlib很多算法是数据并行 模型并行是属于ps server的范畴了
`单行代码`
关注海牛部落大数据技术社区