如何将S3零件文件读入熊猫数据框

问题描述:

我已卸载数据从红移到S3,卸载后我得到了xx_0000_part_00多个文件。如何将S3零件文件读入熊猫数据框

现在我想将这些文件读入熊猫数据框。

我该怎么做?

感谢, 逊

你将不得不从S3导入文件到本地或使用

AWS S3 CP EC2

命令。一旦你有本地文件,只需通过熊猫库阅读它。

import pandas as pd 
df = pd.read_csv('/file-path/filename') 

PS-S3零件文件只是一个常规的csv文件和您选择的分隔符。

如果我做出了错误的假设,请发表评论,我会重新调整我的答案。

,如果你想从红移数据为大熊猫只要使用这个包(或获取数据从熊猫到红移):

https://github.com/agawronski/pandas_redshift