配置单元 - 从zip文件创建表

问题描述:

我有一堆CSV的zip文件,我想创建Hive表。我试图找出最好的方法是什么。配置单元 - 从zip文件创建表

  • 将文件解压,上传到HDFS。
  • 有没有办法将文件复制到HDFS,解压缩文件
  • 或者还有其他更好的/推荐的方法吗?

通常会将CSV文件转换为制表符分隔或Ctrl A或Ctrl B分隔符,然后将其上传到Hadoop/Hive。

将文件上传到HDFS可以使用下面的命令 -

Hadoop的FS -put file_to_uplload hdfs_path

我假设你想自动执行此。在这种情况下,以下说明将会有所帮助。

  1. 创建具有映射到CSV文件文件的列的配置元表(可以在此步骤删除不必要的字段)。在配置单元中选择您的分隔符创建表语句。

  2. 转换CSV文件将分隔的格式(Ctrl键甲或Ctrl B)

  3. 上传文件蜂巢表位置。

您可以使用python批处理脚本/框架自动化关于步骤。

要进一步阅读: http://wiki.apache.org/hadoop/Hive/GettingStarted