如何使用gzip压缩存储在hdfs上的文件的原始内容?

问题描述:

有没有什么方法可以读取存储在hadoop hdfs上的文件的原始内容?如何使用gzip压缩存储在hdfs上的文件的原始内容?

通常,当我提交-input param指向.gz文件(如-input hdfs://host:port/path/to/gzipped/file.gz)的流作业时。

我的任务接收逐行解压缩输入,这是不是我想要什么。

你可以用各自的Hadoop配置初始化FileSystem

FileSystem.get(conf); 

它有一个方法open应在原则上允许您读取原始数据。