机器学习---数据科学包---数据导入导出

数据I/O

  • 索引及列名
  • 缺失值处理
  • 逐块读取数据
  • 保存数据到磁盘
  • 二进制数据
  • 其他格式简介

索引及列名/缺失值处理

机器学习---数据科学包---数据导入导出

逐块读取数据

机器学习---数据科学包---数据导入导出

保存数据到磁盘

机器学习---数据科学包---数据导入导出

二进制数据

pickle包

其他格式

  • HDF5: HDF是个用C语言实现的库,可以高效地读取磁盘上的二进制存储的科学数据
  • Excel文件:pd.excel/pd.ExcelFile/pd.ExcelWriter
  • JSON:通过json模块来转换为字典,再转换为DataFrame
  • SQL:通过pd.io.sql从数据库读取数据
  • NoSQL(MongoDB):需要结合相应的数据库模块,如pymongo,再通过游标把数据读出来,转换为DataFrame