sqoop 原理与部署

教程 犀牛 ⋅ 于 2021-06-19 13:36:16 ⋅ 1518 阅读

sqoop原理

  • sqoop介绍

    Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。
      导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。
      导出数据:从hadoop的文件系统中导出数据到关系型数据库中。

  • sqoop架构

file

  • 导入流程
    1. 首先通过jdbc读取关系型数据库元数据信息,获取到表结构。
    2. 根据元数据信息生成Java类。
    3. 启动import程序,通过jdbc读取关系型数据库数据,并通过上一步的Java类进行序列化。
    4. MapReduce并行写数据到Hadoop中,并使用Java类进行反序列化。
      • 导出流程
        1. sqoop通过jdbc读取关系型数据库元数据,获取到表结构信息,生成Java类,用于序列化。
        2. MapReduce并行读取hdfs数据,并且通过Java类进行序列化。
        3. export程序启动,通过Java类反序列化,同时启动多个map,通过jdbc将数据写入到关系型数据库中。

cdh部署sqoop

  • 添加服务

file

file

  • 添加gateway节点

file

  • 完成效果

file

file

版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海汼部落-犀牛,http://hainiubl.com/topics/75726
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter