StreamSets RDBMS2Hbase开发流程

SDC开发流程及名词解释

 

1、首先创建一个SDC的pipeline:

StreamSets RDBMS2Hbase开发流程 

2、拖进来我们要用的组件(JDBC QUERY、HBASE)

 StreamSets RDBMS2Hbase开发流程

3、我们可以在右边栏选择我们想用的组件

StreamSets RDBMS2Hbase开发流程 

4、组件参数配置:(JDBC QUERY)

第一步:配置错误记录的报错方式,选send to error

StreamSets RDBMS2Hbase开发流程

第二步:配置JDBC页

StreamSets RDBMS2Hbase开发流程

jdbc连接正常配,下边用户认证和增量模式打上勾,sql quer 要遵循以下格式:

        SELECT * FROM table WHERE id > ${OFFSET} ORDER BY id

 StreamSets RDBMS2Hbase开发流程

上图的Initial Offset和Offset column要与query里的条件保持一致

例:Initial:${OFFSET}  OffsetColumn:id

Root Field Type:用默认的List-Map(存档类型)

Query interval:根据实际情况设置查询轮询间隔

Max Batch Size:每次提交的数据量,1000即可

Max Clob Size:一次读取的最大数据量

Number OfRetries on SQL ERROR:sql执行报错重试次数

第三步:配置用户认证页(数据库访问用户密码)

 StreamSets RDBMS2Hbase开发流程

 

5、组件参数配置:(Hbase)

 

    第一步:配置错误记录的报错方式,选send to error

StreamSets RDBMS2Hbase开发流程 

       第二步:配置HBase

     StreamSets RDBMS2Hbase开发流程 

 

Zookeeper Quorum:ZK队列配置

ZK Port:ZK端口号

ZK PZ:固定,\hbase hbase的元数据目录

Table Name:目标表表明

Row Key:类似于主键

Storage Type:地层文件存储类型

StreamSets RDBMS2Hbase开发流程 

Fields:配置字段映射关系,PG字段对应Hbase字段名

Ignore Missing Field:忽略空字段

Implicit field mapping:自动匹配字段映射,勾上这个我们就不用配置字段映射了(fields)

Ignore Invalid Column:忽略空行


最后启动任务就好了:


StreamSets RDBMS2Hbase开发流程