sqoop原理
-
sqoop介绍
Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。
导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。
导出数据:从hadoop的文件系统中导出数据到关系型数据库中。 - sqoop架构
- 导入流程
- 首先通过jdbc读取关系型数据库元数据信息,获取到表结构。
- 根据元数据信息生成Java类。
- 启动import程序,通过jdbc读取关系型数据库数据,并通过上一步的Java类进行序列化。
- MapReduce并行写数据到Hadoop中,并使用Java类进行反序列化。
- 导出流程
- sqoop通过jdbc读取关系型数据库元数据,获取到表结构信息,生成Java类,用于序列化。
- MapReduce并行读取hdfs数据,并且通过Java类进行序列化。
- export程序启动,通过Java类反序列化,同时启动多个map,通过jdbc将数据写入到关系型数据库中。
- 导出流程
cdh部署sqoop
- 添加服务
- 添加gateway节点
- 完成效果