Hadoop文件输出帮助文档

Hadoop文件输出是将数据流中的数据以指定形式输出到HDFS(Hadoop分布式文件系统)中。该步骤有“文件”、“内容”、“字段”三个标签页。“文件”标签页配置如图1所示。

          Hadoop文件输出帮助文档

 

                                                     图1 “文件”标签页配置信息

 

下文详细解释各控件的含义

1、步骤名称:步骤的名称,在单一转换中,名称必须唯一。

2IP:指定HDFS的IP地址

3HDFS端口:指定HDFS的端口

4HDFS用户名:指定HDFS的用户名

5HDFS密码:指定HDFS的密码

6、文件目录:指定文件名和输出文件的路径。

7、创建父文件目录:勾选后将根据“文件目录”中的路径自动创建父目录

8、启动时不创建文件:勾选后在转换开始时不会生成文件。

9、从字段中获取文件名:在输入流中使用第10个控件“文件名字段”中的数据作为输出文件名,勾选后下面的“文件名字段”将变为可选状态

10、文件名字段:指定输入流中包含文件名的字段。

11、扩展名:指定输出文件名的扩展名。

12、文件包含步骤?:当输出步骤设置为多线程执行时,则自动生成从“0”开始计数的步骤号。如图2所示,右键步骤图标选择“改变开始复制的数量”,填写需要的数量值。设置之后,自动把数据平均分离执行,并生成多个文件。如图10所示,文件名最后的数字就是步骤号。

                                                Hadoop文件输出帮助文档

 

                                                              图2 设置线程数

                                       Hadoop文件输出帮助文档

 

                                                      图3 生成从0开始的步骤号

13、文件名里包含数据分区号?:如果勾选,在当前步骤使用分区模式时,文件名称中包含分区的ID。如果控件12与控件13都勾选,那么文件名称构造逻辑为文件名称_复制编号_P分区编号.txt。

14、文件名里包含日期?勾选此项,生成文件名会包含年、月、日。

15文件名里包含时间?勾选此项,生成文件名会包含时、分、秒。

16指定日期时间格式:勾选后,14个控件“日期时间格式”将变为可用,并按照选定的日期格式生成文件名后缀。

17、日期时间格式:时间格式下拉框,将根据选取的格式生成文件名后缀。

18、显示文件名:预览生成的文件名。

19、结果中添加文件名勾选此项,可把转换的结果文件名存进中,使其可以在后续步骤中被获取。

              Hadoop文件输出帮助文档

 

                                                        图4 结果输出到后续步骤

 

“内容”标签页配置信息如图5所示:……

 

更多详细内容,可点击下述链接查看。

文章原创首发于:https://ckettle.ccsaii.com.cn/help/StepPluginType/HadoopFileOutputPlugin?s=****