spark 的 shuffle 算子一定会产生宽依赖吗？

问答 ⋅ 卢本伟牛X ⋅ 最后回复由青牛 3549 阅读

今天朋友抛出一个很有意思的结论：

shuffle 不一定产生宽依赖，但是宽依赖一定是由 shuffle 产生的。

我想了好久，有没有这种情况，在极端情况下，就算使用了 shuffle 算子，父子 rdd 的 partition 依然是一对一的关系，这样实际就没有形成宽依赖虽然使用了 shuffle 算子。熟悉 spark 的大佬，谁对这一块比较熟，给我详细阐述下这二者的关系，十分感谢！
file

成为第一个点赞的人吧

回复数量: 1

青牛海汼部落创始人，80后程序员一枚，曾就职于金山，喜欢倒腾技术做产品

shuffle 不一定产生宽依赖谈谈我的理解shuffle是指广义上的数据移动父rdd与子rdd 如果这个移动是一对多那肯定是宽依赖了，如果不是一对多就不是宽依赖了

请注意单词拼写，以及中英文排版，参考此页
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
支持表情，可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif，教程
发布框支持本地存储功能，会在内容变更时保存，「提交」按钮点击时清空

Ctrl+Enter