Hadoop文件输出帮助文档
Hadoop文件输出是将数据流中的数据以指定形式输出到HDFS(Hadoop分布式文件系统)中。该步骤有“文件”、“内容”、“字段”三个标签页。“文件”标签页配置如图1所示。
图1 “文件”标签页配置信息
下文详细解释各控件的含义:
1、步骤名称:步骤的名称,在单一转换中,名称必须唯一。
2、IP:指定HDFS的IP地址。
3、HDFS端口:指定HDFS的端口。
4、HDFS用户名:指定HDFS的用户名。
5、HDFS密码:指定HDFS的密码。
6、文件目录:指定文件名和输出文件的路径。
7、创建父文件目录:勾选后将根据“文件目录”中的路径自动创建父目录
8、启动时不创建文件:勾选后在转换开始时不会生成文件。
9、从字段中获取文件名:在输入流中使用第10个控件“文件名字段”中的数据作为输出文件名,勾选后下面的“文件名字段”将变为可选状态。
10、文件名字段:指定输入流中包含文件名的字段。
11、扩展名:指定输出文件名的扩展名。
12、文件包含步骤?:当输出步骤设置为多线程执行时,则自动生成从“0”开始计数的步骤号。如图2所示,右键步骤图标选择“改变开始复制的数量”,填写需要的数量值。设置之后,自动把数据平均分离执行,并生成多个文件。如图10所示,文件名最后的数字就是步骤号。
图2 设置线程数
图3 生成从0开始的步骤号
13、文件名里包含数据分区号?:如果勾选,在当前步骤使用分区模式时,文件名称中包含分区的ID。如果控件12与控件13都勾选,那么文件名称构造逻辑为文件名称_复制编号_P分区编号.txt。
14、文件名里包含日期?:勾选此项,生成文件名会包含年、月、日。
15、文件名里包含时间?:勾选此项,生成文件名会包含时、分、秒。
16、指定日期时间格式:勾选后,第14个控件“日期时间格式”将变为可用,并按照选定的日期格式生成文件名后缀。
17、日期时间格式:时间格式下拉框,将根据选取的格式生成文件名后缀。
18、显示文件名:预览生成的文件名。
19、结果中添加文件名:勾选此项,可把转换的结果文件名存进流中,使其可以在后续步骤中被获取。
图4 结果输出到后续步骤
“内容”标签页配置信息如图5所示:……
更多详细内容,可点击下述链接查看。
文章原创首发于:https://ckettle.ccsaii.com.cn/help/StepPluginType/HadoopFileOutputPlugin?s=****