AIZero

第 4206 位会员
注册于 2020-06-06 09:35:01
活跃于 2020-09-14 16:37:59


最近话题
最新评论
  • ETL 中优化的一些问题? at 2020-09-04 11:23:11

    @青牛 好的,我去试试

  • 公司日志采集用 flume 还是用脚本? at 2020-09-02 11:47:07

    @潘牛 配置hdfs目录中有一个疑问比如这样配置,a1.sinks.k1.hdfs.path = hdfs://ns1/user/hadoop/access/%Y/%m%d/%H,
    目录0902/03的数据是上午2:00-3:00区间的数据,就是3点的数据是前面区段的数据,有点不符合平常认知。我希望目录为0902/02指向2:00-3:00的数据。在shell脚本中可以用date=date -d "1 day ago" +%Y%m%d%H,用来获取前一小时的日期,但是在flume的配置文件中加上这条语句后,hdfs://ns1/user/hadoop/access/%Y/%m%d/%H时间并不会受到影响。有什么办法能修改吗,还是flume采取的日志大家都默认指向前一个时间段。

  • 数据仓库阶段:UDF 函数与字典表该如何抉择? at 2020-08-30 19:41:25

    @青牛 假如源数据到ODS层跑MapReduce的代码中直接封装了UDF函数转换的逻辑,成为一个比较大的jar包,进行数据清洗,这是第一种方案。第二种方案,先一个专门跑MapReduce的jar包,到ODS层,然后从ODS层到DWD层中用UDF的jar包进行数据转换。这两种方案哪个更好,老师能详细说说最初数据清洗跑jar包和hive中用UDF的jar包底层实现有什么区别吗?

  • MR 中 Job 提交过程源码分析总结 at 2020-08-25 17:32:04

    @青牛 嗯嗯,谢谢老师,昨天总的流程过了几遍,最近会把MR的源码部分总结完

  • 二分查找法的一些思考 at 2020-06-28 18:26:52

    @青牛 在文档里写的能显示,我下次会贴图,这次的计算过程可以忽略的

  • 二分查找法的一些思考 at 2020-06-28 18:16:14

    @青牛 数学表达式没有输出来有点可惜,数学忘了的我算了好久