Sqoop的介绍(导入导出原理)

Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。
导入数据：MySQL、Oracle导入数据到hadoop的hdfs、hive、HBASE等数据存储系统。
导出数据：从hadoop的文件系统中导出数据到关系型数据库中。

Sqoop的介绍(导入导出原理)
将导入导出的命令翻译成MapReduce程序来实现，并且MapReduce程序不需要reducetask的。在翻译出的MapReduce中主要针对对 InputFormat 和 OutputFormat 进行定制。

sqoop工具是通过MapReduce进行导入作业的。总体来说，是把关系型数据库中的某张表的一行行记录写入hdfs中。
Sqoop的介绍(导入导出原理)
解释：

Sqoop的介绍(导入导出原理)
解释：

首先sqoop通过jdbc访问关系型数据库，得到需要导出的数据的元数据信息
根据获取的元数据信息，sqoop生成一个java类，用来进行数据的传输载体，该类必须实现序列化。
启动MapReduce程序
sqoop利用生成的这个java类，并行的从hdfs中读取数据
每一个map作业都会根据读取到的导出表的元数据信息和读取到的数据，生成一批的insert语句然后多个 map 作业会并行的向数据库 mysql 中插入数据。

总结：数据是从hdfs中并发进行读取，也是并发进行写入，那并行的读取时依赖hdfs的性能，而并行的写入到MySQL，就要依赖MySQL的性能。