spark输出自己想要的文件名称
在hadoop中输出文件名称的生产是由OutputFormat里面的generateFileNameForKeyValue方法生产的。知道这个之后,我们就可以写一个仔细需要的方法去继承父类重写文件生成的规则了;源码中是获取reduce的编码号生成part*的带有数字的文件名称;这里定制了一个用key作为输出文件名称,用这个是千万不能key是几千万上亿的不重复字符;这个只适合数量小,key也不多情况。
另外说下generateActualKey方法,这个方法是指明输出数据的过程中是否输出key,下面这个代码为不输出;同样也有一个输出value的方法;然后就可以用saveAsHadoopFile方法吧rdd输出了。