数据仓库理论

教程 青牛 ⋅ 于 2021-05-28 18:32:51 ⋅ 1294 阅读

数据仓库理论

数据仓库(dataware house),一般简称DW或DWH,1990年由比尔.恩门首次提出,数据仓库建设特征四大特点面向主题、集成性、稳定性、时变性。

  • 面向主题:将上游数据(结构化、非结构化)通过数据抽取加载至数据仓库,各种业务场景划分不同业务主题,按照主题摆放进行数据存储。

  • 集成性:将上游分散的数据进行抽取,进行加工与集成,汇总存储汇总层。

  • 稳定性:入仓后多用于查询需求,一般数仓提供数据修改功能,数据加工过程中如果需要更新数据(如:拉链表),通常使用数据腾挪的方式实现,而不使用update的方式。

  • 时变性:数据仓库是随时间变化入仓的,传统数据加载方式为T+1的方式加载(今天计算昨天的数据),提供历史某阶段数据查询功能。

数据仓库常见术语

  • 数据源:上游数据,可以是结构化数据也可以是非结构化数据

file

  • 数据加载:通过ETL程序或者ETL脚本将上游数据抽取至数据仓库,抽取方式有对库直抽或上游系统卸数至大数据平台

file

  • 数据仓库:用于数据存储与加工处理

file

  • 元数据管理:描述数据的数据称为元数据,如hive的元数据

  • 数据血缘:用于记录数据的血缘关系,如a表与b表关联后生成c表

  • 数据质量:对数仓数据质量进行管理,通常在数据入仓阶段进行数据入仓有效性检核,按照入仓标准进行筛选,在主题加工或汇总加工时进行数据合理性筛选,如字段合理性管理

  • 存储策略:指数据存储的策略,如增量、全量存储,数据格式,如orc、parquet,压缩方式,如snappy

  • 向下供数:数据仓库对下游系统供数,常见供数方式分为下游系统通过接口访问数仓与数仓按照下游系统需求将数据卸载成数据文件供给下游系统

数据仓库整体架构

file

数据仓库发展

file

版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海汼部落-青牛,http://hainiubl.com/topics/75545
点赞
成为第一个点赞的人吧 :bowtie:
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter