数据清洗之后还需要统计啥的吗?

问答 ling775000 ⋅ 于 2018-01-21 17:31:43 ⋅ 最后回复由 青牛 2018-01-22 19:36:30 ⋅ 2853 阅读

我理解的是数据清洗出来为啥要统计呢? 可以说下业务场景吗

成为第一个点赞的人吧 :bowtie:
回复数量: 4
  • 青牛 海汼部落创始人,80后程序员一枚,曾就职于金山,喜欢倒腾技术做产品
    2018-01-22 16:49:17

    你是说数据清洗过程中为什么还要统计吗?

  • 青牛 海汼部落创始人,80后程序员一枚,曾就职于金山,喜欢倒腾技术做产品
    2018-01-22 16:54:51

    这个过程中你要知道脏数据的情况是什么样的,比如每个字段的非法数据是多少,整体处理了多少条数据等等。比如你的日志是客户端上报产生的,那客户端版本更新是有周期的,这个过程是在持续的完成全部用户的新字段覆盖,比如双12淘宝客户端更新这个版本可能就包含新字段,还有做为数据开发人员要知道数据上报是否符合对这个数据字段的原本定义,因为你做为数据开发人员要起到数据的监督作用。比如数据ETL之后相比昨天的突然大幅的增多或者减少,像这种情况一般都是有异常的。

  • ling775000
    2018-01-22 19:24:40

    @青牛 那天有人问我“你们清洗过不需要继续统计啥的么?” 我听得很懵逼,数据清洗之后不是得到想要的数据了吗?比如hive数据清洗,那他说的统计是啥意思?他说用脚本统计,我一时不理解

  • 青牛 海汼部落创始人,80后程序员一枚,曾就职于金山,喜欢倒腾技术做产品
    2018-01-22 19:36:30

    @ling775000 人家那意思就是统计数据规模和字段详情吧,这个是需要统计的,然后同比环比进行对比

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter