大的文件拆分后,怎样用Hadoop进行高效的处理这些小文件?以及怎样让各个节点尽可能的负载均衡?
Hadoop会启动多个map来处理小文件,节点的资源分配问题是属于yarn的资源调度范畴 详细情况推荐你看看yarn相关方面的书籍
`单行代码`
关注海汼部落