海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

451 关注者
2256 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2256)
  • 请问一下,基类 BaseMR 里边为什么要用 abstract 的 getJob 而不直接调用 getInstance 呢?

    是因为写mr有3种方法:1、main方法里面直接写。2、用ToolRunnr加上Configured。3、使用任务工作链。
    有这么多的方式所以团队开发不统一,那为了统一mr编写规则,所以在定义了BaseMR并且里面定义了抽象方法
    public abstract Job getJob(Configuration conf)
    可以在里面调用Job job = Job.getInstance(conf,getJobNameWithTaskID()); 生成任务的Job

    当然如果你想自由不规范你可以在任意地方,比如main方法中调用Job job = Job.getInstance(conf,getJobNameWithTaskID());生成你的Job。但是别人也像你一样随机3选1,那你们团队以后看彼此代码的时候是不是心里都在骂娘。

  • eclipse 添加 dbutils 依赖的时候 搜索不到对应的结果?

    @羽翔 可能苏老师隐藏了一些骚操作,以后和老师的POM保持一致就行了,可以管苏老师要一下他的POM

  • eclipse 添加 dbutils 依赖的时候 搜索不到对应的结果?

    你的POM里面有这个配置吗?

    <dependency>
        <groupId>commons-dbutils</groupId>
        <artifactId>commons-dbutils</artifactId>
        <version>1.7</version>
    </dependency>
  • 为什么说现在 大数据平台 存算分离 是一种更好的方案?

    存算分离我认为主要是成本问题,可以使用廉价的机器做存储,性能好的机器做运行,比如百度云盘就是使用的arm服务器当存储,这样散热成本和电费成本就可以变得很底。缺点数据运算都得走网络不利于运算过程中的数据本地化策略。

  • MR 的 shuffle 阶段 是如何确认 数据相应的分区的?

    有几个reduce就有几个partition,放到那个partition中根据key的hashCode % numReduceTask去算的。一个任务跑起来那reduce的任务数就固定下来了,所以partition的数量就固定下来了,并不会因为数据变多动态调整partition。

  • 创建新的 avro 表报错,请问如何解决?

    去学校集群上去测试一下。

  • 运行 Word count 报错 Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0 (Ljava/lang/String;I) Z ?

    @羽翔 :+1:

  • 线上 Linux 下笔记

    @123456789987654321 可以可以

  • hadoop 集群上

    应该把自己遇到的问题也做一下总结

  • 运行 Word count 报错 Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0 (Ljava/lang/String;I) Z ?

    1.确定你的winutils安装成功,尝试一下windows伪集群是否能正常启动
    2.保证eclipse管理员模式运行

  • 如何在 HDFS 上进行简单的批量解压操作

    @leeston9 我帮你整理了一下帖子格式,markdown语法之间用换行分割就好了。

  • 如何在 HDFS 上进行简单的批量解压操作

    @leeston9

    file

    这一步不用写mr,可以使用notepad++列编辑功能直接提取最后一列,不是啥都要写代码,咋快咋来。

    打赏10元,理由:爱思考有创新。

  • hadoop 启动后本地无法打开 nn1.hadoop:50070

    可能电脑太慢了,虚拟机有点卡,journalnode启动没跟上节奏

  • Python Windows 和 Linux 下用谷歌 / 火狐无头浏览器爬取网页内容

    @忘尘 恭喜获得10元打赏,理由:自主发现项目优化点。

  • 请问一下,counters 我写了 为什么并不会在 log 里和手动输出里出现呢?

    @LUNLI :sweat_smile:

  • «
  • 1
  • 2
  • ...
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • ...
  • 146
  • 147
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2