《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

第3章 Python的数据结构、函数和文件

3.1 数据结构和序列

元组

元组是固定长度，不可改变的Python序列对象。创建元组的最简单方式，是用逗号分隔一列值：

当用复杂的表达式定义元组，最好将值放到圆括号内，如下所示：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

用tuple可以将任意序列或迭代器转换成元组：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

可以用方括号访问元组中的元素。和C、C++、JAVA等语言一样，序列是从0开始的：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

元组中存储的对象可能是可变对象。一旦创建了元组，元组中的对象就不能修改了：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

如果元组中的某个对象是可变的，比如列表，可以在原位进行修改：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

可以用加号运算符将元组串联起来：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

元组乘以一个整数，像列表一样，会将几个元组的复制串联起来：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

对象本身并没有被复制，只是引用了它。

拆分元组

若想将元组赋值给类似元组的变量，Python会试图拆分等号右边的值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

即使含有元组的元组也会被拆分：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

使用这个功能，可以很容易地替换变量的名字，其它与语言可能是这样：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

但是在Python中，替换可以这样做：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

变量拆分常用来迭代元组或列表序列：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

Python最近新增了更多高级的元组拆分功能，允许从元组的开头“摘取”几个元素。它使用了特殊的语法*rest，这也用在函数签名中以抓取任意长度列表的位置参数：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

rest的部分是想要舍弃的部分，rest的名字不重要。作为惯用写法，许多Python程序员会将不需要的变量使用下划线：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

tuple方法

因为元组的大小和内容不能修改，它的实例方法都很轻量。其中一个很有用的就是count（也适用于列表），它可以统计某个值得出现频率：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

列表

与元组对比，列表的长度可变，内容可以被修改。你可以用方括号定义，或用list函数：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

列表和元组的语义接近，在许多函数中可以交叉使用。

list函数常用来在数据处理中实体化迭代器或生成器：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

添加和删除元素

可以用append在列表末尾添加元素：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

insert可以在特定的位置插入元素：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

插入的序号必须在0和列表长度之间。

警告：与append相比，insert耗费的计算量大，因为对后续元素的引用必须在内部迁移，以便为新元素提供空间。如果要在序列的头部和尾部插入元素，可能需要使用collections.deque，一个双尾部队列。

insert的逆运算是pop，它移除并返回指定位置的元素：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

可以用remove去除某个值，remove会先寻找第一个值并除去：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

若不考虑性能，使用append和remove，可以把Python的列表当做完美的“多重集”数据结构。

用in可以检查列表是否包含某个值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

否定in可以再加一个not：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

在列表中检查是否存在某个值远比字典和集合速度慢，因为Python是线性搜索列表中的值，但在字典和集合中，在同样的时间内还可以检查其它项（基于哈希表）。

串联和组合列表

与元组类似，可以用加号将两个列表串联起来：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

若已经定义了一个列表，用extend方法可以追加多个元素：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

通过加法将列表串联的计算量较大，因为要新建一个列表，并且要复制对象。用extend追加元素，尤其是到一个大列表中，更为可取。因此：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

要比串联方法快：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

排序

可以用sort函数将一个列表原地排序（不创建新的对象）：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

sort有一些选项，有时会很好用。其中之一是二级排序key，可以用这个key进行排序。例如，可以按长度对字符串进行排序：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

二分搜索和维护已排序的列表

bisect模块支持二分查找，和向已排序的列表插入值。bisect.bisect可以找到插入值后仍保证排序的位置，bisect.insort是向这个位置插入值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

注意：bisect模块不会检查列表是否已排好序，进行检查的话会耗费大量计算。因此，对未排序的列表使用bisect不会产生错误，但结果不一定正确。

切片

用切片可以选取大多数序列类型的一部分，切片的基本形式是在方括号中使用start：stop：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

切片也可以被序列赋值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

切片的起始元素是包括的，不包括结束元素。因此，结果中包含的元素个数是stop-start。

start或stop都可以被省略，省略之后，分别默认序列的开头和结尾：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

负数表明从后向前切片：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

需要一段时间来熟悉使用切片，尤其是之前学的是R或MATLAB。下图展示了正整数和负整数的切片。在图中，指数标示在边缘以表明切片是在哪里开始哪里结束的。

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

在第二个冒号后面使用step，可以隔一个取一个元素：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

一个聪明的方法是使用-1，它可以将列表或元组颠倒过来：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

序列函数

Python有一些有用的序列函数。

enumerate函数

迭代一个序列时，你可能想跟踪当前项的序号。手动的方法可能是下面这样：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

因为这么做很常见，Python内建了一个enumerate函数，可以返回（i，value）元组序列：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

当你索引数据时，使用enumerate的一个好方法是计算序列（唯一的）dict映射到位置的值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

sorted函数

sorted函数可以从任意序列的元素返回一个新的排好序的列表：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

sorted函数可以接受和sort相同的参数。

zip函数

zip可以将多个列表、元组或其它序列成对组合成一个元组列表：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

zip可以处理任意多的序列，元素的个数取决于最短的序列：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

zip的常见用法之一是同时迭代多个序列，可能结合enumerate使用：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

给出一个“被压缩的”序列，zip可以被用来解压序列。也可以当作把行的列表转换为列的列表。这个方法看起来有点神奇：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

reversed函数

reversed可以从后向前迭代一个序列：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

reversed是一个生成器，只有实体化（即列表或for循环）之后才能创建翻转的序列。

字典

字典可能是Python最为重要的数据结构。它更为常见的名字是哈希映射或关联数组。它是键值对的大小可变集合，键和值都是Python对象。创建字典的方法之一是使用尖括号，用冒号分隔键和值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

可以像访问列表或元组中的元素一样，访问、插入或设定字典中的元素：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

可以用检查列表和元组是否包含某个值的方法，检查字典中是否包含某个键：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

可以用del关键字或pop方法（返回值的同时删除键）删除值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

keys和vaues是字典的键和值的迭代器方法。虽然键值对没有顺序，这两个方法可以用相同的顺序输出键和值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

用update方法可以将一个字典与另一个融合：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

update方法是原地改变字典，因此任何传递给update的键的旧的值都会被舍弃。

用序列创建字典

常常，可能想将两个序列配对组合成字典。下面是一种写法：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

因为字典本质上是二元元组的集合，dict可以接受二元元组的列表：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

默认值

下面的逻辑很常见：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

因此，dict的方法get和pop可以取默认值进行返回，上面的if-else语句可以简写成下面：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

get默认会返回None，若不存在键，pop会抛出一个例外。关于设定值，常见的情况是在字典的值是属于其它集合，如列表。例如，可以通过首字母，将一个列表中的单词分类：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

setdefault方法就正是干这个的。前面的for循环可以改写为：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

collections模块有一个很有用的类，defaultdict，它可以进一步简化上面。传递类型或函数以生成每个位置的默认值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

有效的键类型

字典的值可以是任意Python对象，而键通常是不可变的标量类型（整数、浮点型、字符串）或元组（元组中的对象必须是不可变的）。这被称为“可哈希性”。可以用hash函数检测一个对象是否是可哈希的（可被用作字典的键）：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

要用列表当做键，一种方法是将列表转化为元组，只要内部元素可以被哈希，它也就可以被哈希：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

集合

集合是无序的不可重复的元素的集合。可以把它当做字典，但是只有键没有值。可以用两种方式创建集合：通过set函数或使用尖括号set语句：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

集合支持合并、交集、差分和对称差等数学集合运算。考虑两个示例集合：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

合并是取两个集合中不重要的元素。可以用union方法，或者|运算符：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

交集的元素包含在两个集合中。可以用intersection或&运算符：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

下表列出了常用的集合方法。

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

所有逻辑集合操作都有另外的原地实现方法，可以直接用结果替代集合的内容。对于大的集合，这么做效率更高：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

与字典类似，集合元素通常都是不可变的。要获得类似列表的元素，必须转换成元组：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

还可以检测一个集合是否是另一个集合的子集或父集：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

集合的内容相同时，集合才对等：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

列表、集合和字典推导式

列表推导式是Python最受喜爱的特性之一。它允许用户方便的从一个集合过滤元素，形成列表，在传递参数的过程中还可以修改元素。形式如下：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

它等同于下面的for循环：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

filter条件可以被忽略，只留下表达式就行。例如，给定一个字符串列表，可以过滤出长度在2及以下的字符串，并将其转换为大写：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

用相似的方法，还可以推导集合和字典。字典的推导式如下所示：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

集合的推导式与列表很像，只不过用的是尖括号：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

与列表推导式类似，集合与字典的推导也很方便，而且使代码的读写都很容易。来看前面的字符串列表。假如我们只想要字符串的长度，用集合推导式的方法非常方便：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

map函数可以进一步简化：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

作为一个字典推导式的例子，我们可以创建一个字符串的查找映射表以确定它在列表中的位置：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

嵌套列表推导式

假设有一个包含列表的列表，包含了一些英文名和西班牙名：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

你可能是从一些文件得到的这些名字，然后想按照语言进行分类。现在假设我们想用一个列表包含所有的名字，这些名字中包含两个或更多的e。可以用for循环来做：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

可以用嵌套列表推导式的方法，将这些写在一起，如下所示：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

嵌套列表推导式看起来有些复杂。列表推导式的for部分是根据嵌套的顺序，过滤条件还是放在最后。下面是另一个例子，我们将一个整数元组的列表扁平化成了一个整数列表：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

记住，for表达式的顺序是与嵌套for循环的顺序一样（而不是列表推导式的顺序）：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

可以有任意多级别的嵌套，但是如果有两三个以上的嵌套，就应该考虑下代码可读性的问题了。分辨列表推导式的列表推导式中的语法也很重要的：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

这段代码产生了一个列表的列表，而不是扁平化的只包含元素的列表。

3.2 函数

函数是Python中最主要也是最重要的代码组织和复用手段。作为最重要的原则，如果你要重复使用相同或非常类似的代码，就需要写一个函数。通过给函数起一个名字，还可以提高代码的可读性。

函数使用def关键字声明，用return关键字返回值：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

同时拥有多条return语句也是可以的。如果到达函数末尾时没有遇到任何一条return语句，则返回None。

函数可以有一些位置参数（positional）和一些关键字参数（keyword）。关键字参数通常用于指定默认值或可选参数。在上面的函数中，x和y是位置参数，而z则是关键字参数。也就是说，该函数可以用下面这两种方式进行调用：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

函数参数的主要限制在于：关键字参数必须位于位置参数（如果有的话）之后。你可以任何顺序指定关键字参数。也就是说，你不用死记硬背函数参数的顺序，只要记得它们的名字就可以了。

笔记：也可以用关键字传递位置参数。前面的例子，也可以写为：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

这种方法可以提高可读性。

命名空间、作用域，和局部函数

函数可以访问两种不同作用域中的变量：全局（global）和局部（local）。Python有一种更科学的用于描述变量作用域的名称，即命名空间（namespace）。任何在函数中赋值的变量默认都是被分配到局部命名空间（local namespace）中的。局部命名空间是在函数被调用时创建的，函数参数会立即填入该命名空间。在函数执行完毕之后，局部命名空间就会被销毁（会有一些例外的情况）。看看下面这个函数：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

调用func()之后，首先会创建出空列表a，然后添加5个元素，最后a会在该函数退出的时候被销毁。假如我们像下面这样定义a：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

虽然可以在函数中对全局变量进行赋值操作，但是那些变量必须用global关键字声明成全局才行：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

注意：我常常建议人们不要频繁使用global关键字。因为全局变量一般是用于存放系统的某些状态的。如果你发现自己用了很多，那可能就说明得要来点儿面向对象编程了（即使用类）。

返回多个值

在用Python编程时，函数可以返回多个值。下面是一个简单的例子：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

在数据分析和其它科学计算应用中，你会发现自己常常这么干。该函数起始只返回了一个对象，也就是一个元组，最后该元组会被拆包到各个结果变量中。在上面的例子中，还可以这样写：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

这里的return_value将会是一个含有3个返回值的三元元组。此外，还有一种非常具有吸引力的多值返回方式——返回字典：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

函数也是对象

由于Python函数都是对象，因此，在其他语言中较难表达的一些设计思想在Python中就要简单很多了。假设我们有下面这样一个字符串数组，希望对其进行一些数据清理工作并执行一堆转换：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

为了得到一组能用于分析工作的格式统一的字符串，需要做很多事情：去除空白符、

删除各种标点符号、正确的大写格式等。做法之一是使用内建的字符串方法和正则表达式re模块：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

结果如下所示：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

其实还有另外一种不错的办法：将需要在一组给定字符串上执行的所有运算做成一个列表：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

然后就有：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

这种多函数模式使你能在很高的层次上轻松修改字符串的转换方式。此时的clean_strings也更具可复用性。

还可以将函数用作其他函数的参数，比如内置map函数，它用于在一组数据上应用一个函数：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

匿名（lambda）函数

Python支持一种被称为匿名的、或为lambda函数。它仅由单条语句组成，该语句的结果就使返回值。它是通过lambda关键字定义的，这个关键字没有别的含义，仅仅是说“我们正在声明的是一个匿名函数”。

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

本书其余部分一般将其称为lambda函数。它们在数据分析工作中非常方便，因为会发现很多数据转换函数都以函数作为参数的。直接传入lambda函数比编写完整函数声明要少输入很多字（也更清晰），甚至比将lambda函数赋值给一个变量还要少输入很多字。下面是一个简单的例子：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

虽然可以直接编写[x *2for x in ints]，但是这里我们可以非常轻松地传入一个自定义运算给apply_to_list函数。

再看另外一个例子。假设有一组字符串，你想要根据各字符串不同字母的数量对其进行排序：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

这里，我们可以传入一个lambda函数到列表的sort方法：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

笔记：lambda函数之所以会被称为匿名函数，与def声明的函数不同，原因之一就是这种函数对象本身是没有提供名称name属性。

柯里化：部分参数应用

柯里化（currying）是一个有趣的计算机科学术语，它指的是通过“部分参数应用”（partial argument application）从现有函数派生出新函数的技术。例如，假设我们有一个执行两数相加的简单函数：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

通过这个函数，我们可以派生出一个新的只有一个参数的函数——add_five，它用于对其参数加5:

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

add_numbers的第二个参数称为“柯里化的”（curried）。这里没什么特别花哨的东西，因为我们其实就只是定义了一个可以调用现有函数的新函数而已。内置的functools模块可以用partial函数将此过程简化：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

生成器

能以一种一致的方式对序列进行迭代（比如列表中的对象或文件中的行）是Python的一个重要特点。这是通过一种叫做迭代器协议（iterator protocol，它是一种使对象可迭代的通用方式）的方式实现的，一个原生的使对象可迭代的方法。比如说，对字典进行迭代可以得到其所有的键：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

当你编写for key in some_dict时，Python解释器首先会尝试从some_dict创建一个迭代器：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

迭代器是一种特殊对象，它可以在诸如for循环之类的上下文中向Python解释器输送对象。大部分能接受列表之类的对象的方法也都可以接受任何可迭代对象。比如min、max、sum等内置方法以及list、tuple等类型构造器：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

生成器（generator）是构造新的可迭代对象的一种简单方式。一般的函数执行之后只会返回单个值，而生成器则是以延迟的方式返回一个值序列，即每返回一个值之后暂停，直到下一个值被请求时再继续。要创建一个生成器，只需将函数中的return替换为yield即可：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

调用该生成器时，没有任何代码会被立即执行：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

直到你从该生成器中请求元素时，它才会开始执行其代码：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

生成器表达式

另一种更简洁的构造生成器的方法是使用生成器表达式（generator expression）。这是一种类似于列表、字典、集合推导式的生成器。其创建方式为，把列表推导式两端的方括号改成圆括号：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

它跟下面这个冗长得多的生成器是完全等价的：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

生成器表达式也可以取代列表推导式，作为函数参数：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

itertools模块

标准库itertools模块中有一组用于许多常见数据算法的生成器。例如，groupby可以接受任何序列和一个函数。它根据函数的返回值对序列中的连续元素进行分组。下面是一个例子：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

下表列出了一些经常用到的itertools函数：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

错误和异常处理

优雅地处理Python的错误和异常是构建健壮程序的重要部分。在数据分析中，许多函数只用于部分输入。例如，Python的float函数可以将字符串转换成浮点数，但输入有误时，有ValueError错误：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

假如想优雅地处理float的错误，让它返回输入值。可以写一个函数，在try/except中调用float：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

当float(x)抛出异常时，才会执行except的部分：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

你可能注意到float抛出的异常不仅是ValueError:

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

你可能只想处理ValueError，TypeError错误（输入不是字符串或数值）可能是合理的bug。可以写一个异常类型：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

然后有：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

可以用元组包含多个异常：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

某些情况下，你可能不想抑制异常，你想无论try部分的代码是否成功，都执行一段代码。可以使用finally：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

这里，文件处理f总会被关闭。相似的，可以用else让只在try部分成功的情况下，才执行代码：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

IPython的异常：

若是在%run一个脚本或一条语句时抛出异常，IPython默认会打印完整的调用栈（traceback），在栈的每个点都会有几行上下文：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

自身就带有文本是相对于Python标准解释器的极大优点。你可以用魔术命令%xmode，从Plain（与Python标准解释器相同）到Verbose（带有函数的参数值）控制文本显示的数量。后面可以看到，发生错误之后，（用%debug或%pdb magics）可以进入stack进行事后调试。

3.3 文件和操作系统

本书的代码实例大多使用诸如pandas.read_csv之类的高级工具将磁盘上的数据文件读入Python数据结构。但我们还是需要了解一些关于Python文件处理方面的基础知识。好在它本来就很简单，这也是Python在文本和文本处理方面的如此流行的原因之一。

为了打开一个文件以便读写，可以使用内置的open函数以及一个相对或绝对的文件路径：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

默认情况下，文件是以只读模式（’r’）打开的。然后，我们就可以像处理列表那样来处理这个文件句柄f了，比如对行进行迭代：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

从文件中取出的行都带有完整的行结束符（EOL），因此你常常会看到下面这样的代码（得到一组没有EOL的行）：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

如果使用open创建文件对象，一定要用close关闭它。关闭文件可以返回操作系统资源：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

用with语句可以更容易地清理打开的文件：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

这样可以在退出代码块时，自动关闭文件。

如果输入f=open(path,’w’), 就会有一个新文件被创建在examples/segismundo.txt，并覆盖掉该位置原来的任何数据。另外有一个x文件模式，它可以创建可写的文件，但是如果文件路径存在，就无法创建。下表列出了所有的读/写模式。

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

对于可读文件，一些常用的方法是read、seek和tell。read会从文件返回字符。字符的内容是由文件的编码决定的（如UTF-8），如果是二进制模式打开的就是原始字节：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

read模式会将文件句柄的位置提前，提前的数量是读取的字节数。tell可以给出当前的位置：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

尽管我们从文件读取了10个字符，位置却是11，这是因为用默认的编码用了这么多字节才编码了这10个字符。你可以用sys模块检查默认的编码：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

seek将文件位置更改为文件中的指定字节：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

最后，关闭文件：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

向文件写入，可以使用文件的write或writelines方法。例如，我们可以创建一个无空行版的prof_mod.py：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

下表列出了一些最常用的文件方法：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

文件的字节和Unicode

Python文件的默认操作是“文本模式”，也就是说，你需要处理Python的字符串（即Unicode）。它与“二进制模式”相对，文件模式加一个b。我们来看上一节的文件（UTF-8编码、包含非ASCll字符）：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

UTF-8是长度可变的Unicode编码，所以当我从文件请求一定数量的字符时，Python会从文件读取足够多（可能少至10或多至40字节）的字节进行解码。如果以“rb”模式打开文件，则读取确切的请求字节数：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

取决于文本的编码，可以将字节解码为str对象，但只有当每个编码的Unicode字符都完全成形时才能这么做：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

文本模式结合了open的编码选项，提供了一种更方便的方法将Unicode转换为另一种编码：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

注意，不要在二进制模式中使用seek。如果文件位置位于定义Unicode字符的字节的中间位置，读取后面会产生错误：

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

《利用Python进行数据分析》学习笔记 第3章 Python的数据结构、函数和文件

相关推荐

《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件