如何使用gzip压缩存储在hdfs上的文件的原始内容?
问题描述:
有没有什么方法可以读取存储在hadoop hdfs上的文件的原始内容?如何使用gzip压缩存储在hdfs上的文件的原始内容?
通常,当我提交-input
param指向.gz
文件(如-input hdfs://host:port/path/to/gzipped/file.gz
)的流作业时。
我的任务接收逐行解压缩输入,这是不是我想要什么。
答
你可以用各自的Hadoop配置初始化FileSystem
:
FileSystem.get(conf);
它有一个方法open
应在原则上允许您读取原始数据。