青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

请问一下，基类 BaseMR 里边为什么要用 abstract 的 getJob 而不直接调用 getInstance 呢？

是因为写mr有3种方法：1、main方法里面直接写。2、用ToolRunnr加上Configured。3、使用任务工作链。
有这么多的方式所以团队开发不统一，那为了统一mr编写规则，所以在定义了BaseMR并且里面定义了抽象方法
public abstract Job getJob(Configuration conf)
可以在里面调用Job job = Job.getInstance(conf,getJobNameWithTaskID()); 生成任务的Job

当然如果你想自由不规范你可以在任意地方，比如main方法中调用Job job = Job.getInstance(conf,getJobNameWithTaskID())；生成你的Job。但是别人也像你一样随机3选1，那你们团队以后看彼此代码的时候是不是心里都在骂娘。
eclipse 添加 dbutils 依赖的时候搜索不到对应的结果？

@羽翔可能苏老师隐藏了一些骚操作，以后和老师的POM保持一致就行了，可以管苏老师要一下他的POM

eclipse 添加 dbutils 依赖的时候搜索不到对应的结果？

你的POM里面有这个配置吗？

<dependency>
    <groupId>commons-dbutils</groupId>
    <artifactId>commons-dbutils</artifactId>
    <version>1.7</version>
</dependency>

为什么说现在大数据平台存算分离是一种更好的方案？

存算分离我认为主要是成本问题，可以使用廉价的机器做存储，性能好的机器做运行，比如百度云盘就是使用的arm服务器当存储，这样散热成本和电费成本就可以变得很底。缺点数据运算都得走网络不利于运算过程中的数据本地化策略。
MR 的 shuffle 阶段是如何确认数据相应的分区的？

有几个reduce就有几个partition，放到那个partition中根据key的hashCode % numReduceTask去算的。一个任务跑起来那reduce的任务数就固定下来了，所以partition的数量就固定下来了，并不会因为数据变多动态调整partition。
创建新的 avro 表报错，请问如何解决？

去学校集群上去测试一下。
运行 Word count 报错 Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0 (Ljava/lang/String;I) Z ？

@羽翔 :+1:
线上 Linux 下笔记

@123456789987654321 可以可以
hadoop 集群上

应该把自己遇到的问题也做一下总结
运行 Word count 报错 Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0 (Ljava/lang/String;I) Z ？

1.确定你的winutils安装成功，尝试一下windows伪集群是否能正常启动
2.保证eclipse管理员模式运行
如何在 HDFS 上进行简单的批量解压操作

@leeston9 我帮你整理了一下帖子格式，markdown语法之间用换行分割就好了。
如何在 HDFS 上进行简单的批量解压操作

@leeston9

这一步不用写mr，可以使用notepad++列编辑功能直接提取最后一列，不是啥都要写代码，咋快咋来。

打赏10元，理由：爱思考有创新。
hadoop 启动后本地无法打开 nn1.hadoop:50070

可能电脑太慢了，虚拟机有点卡，journalnode启动没跟上节奏
Python Windows 和 Linux 下用谷歌 / 火狐无头浏览器爬取网页内容

@忘尘恭喜获得10元打赏，理由：自主发现项目优化点。
请问一下，counters 我写了为什么并不会在 log 里和手动输出里出现呢？

@LUNLI :sweat_smile: