《利用Python进行数据分析》学习笔记 第6章 数据加载、存储与文件格式
第6章 数据加载、存储与文件格式
6.1 读写文本格式的数据
- 逐块读取文本文件
若想读取几行(避免读取整个文件),通过nrows进行指定即可。
要逐块读取文件,可以指定chunksize(行数)。
- 将数据写出到文本格式
利用DataFrame的to_csv方法,可以将数据写到一个以都好分隔的文件中。
- 处理分隔符格式
对于任何单字符分隔符文件,可以直接使用Python内置的csv模块。将任意已打开的文件或文件型的对象传给csv.reader,对这个reader进行迭代将会为每行产生一个元组(并移除了所有的引号)。
zip(*values)将行转置为列,创建数据列的字典。
- JSON数据
JSON(JavaScript Object Notation的简称)已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。它是一种比表格型文本格式(如CSV)灵活得多的数据格式。
json.dumps则将Python对象转换成JSON格式:asjson = json.dump(result)
pandas.read_json可以自动将特别格式的JSON数据集转换为Series或DataFrame。
- XML和HTML:Web信息收集
pandas有一个内置的功能,read_html,它可以使用lxml和Beautiful Soup自动将HTML文件中的表格解析为DataFrame对象。
6.2 二进制数据格式
实现数据的高效二进制格式存储最简单的办法之一是使用Python内置的pickle序列化。pandas对象都有一个用于将数据以pickle格式保存到磁盘上的to_pickle方法。
- 读取Microsoft Excel文件
pandas的ExcelFile类或pandas.read_excel函数支持读取存储在Excel 2003(或更高版本)中的表格型数据。这两个工具分别使用扩展包xlrd和openpyxl读取XLS和XLSX文件。
存储在表单中的数据可以read_excel读取到DataFrame
如果要将pandas数据写入为Excel格式,必须首先创建一个ExcelWriter,然后使用pandas对象的to_excel方法将数据写入到其中。
6.3 Web APIs交互
网站有一些通过JSON或其他格式提供数据的公开API。通过Python访问这些API有一个简单易用的办法是requests包。