转换步骤使用分区

分区的目的是充分利用多核CPU的优势,提高数据处理并行度。

处理步骤流程效果

意图:从文本文件中读取数据,增加一个常量列以后,在内存中按no分组统计记录条数,输出到文件
转换步骤使用分区

准备数据

转换步骤使用分区

步骤解析

首先在转换的主对象树下,新建分区schemas
转换步骤使用分区定义分区,分区ID有几个就有多少个分区,名字随便
转换步骤使用分区然后右键【在内存中分组】,选择【分区】->Remainder of divison->你的分区schema->Mode partitioner
转换步骤使用分区
Note: Remainder of divison 按分区分割数据,所有分区数据全局唯一。Mirror to all partitions 则是所有分区复制一份全量的数据。

为了保持每个分区在后续处理步骤都保持在一个泳道上,都要按上步配置相同的schema

输出文件记得勾上 带分区号。
转换步骤使用分区
然后运行即可。

执行结果

生成三个文件,一个分区一个文件
转换步骤使用分区

转换步骤使用分区
转换步骤使用分区