配置单元 - 从zip文件创建表
问题描述:
我有一堆CSV的zip文件,我想创建Hive表。我试图找出最好的方法是什么。配置单元 - 从zip文件创建表
- 将文件解压,上传到HDFS。
- 有没有办法将文件复制到HDFS,解压缩文件
- 或者还有其他更好的/推荐的方法吗?
答
通常会将CSV文件转换为制表符分隔或Ctrl A或Ctrl B分隔符,然后将其上传到Hadoop/Hive。
将文件上传到HDFS可以使用下面的命令 -
Hadoop的FS -put file_to_uplload hdfs_path
我假设你想自动执行此。在这种情况下,以下说明将会有所帮助。
创建具有映射到CSV文件文件的列的配置元表(可以在此步骤删除不必要的字段)。在配置单元中选择您的分隔符创建表语句。
转换CSV文件将分隔的格式(Ctrl键甲或Ctrl B)
- 上传文件蜂巢表位置。
您可以使用python批处理脚本/框架自动化关于步骤。