第三章(提炼)字典和集合(一)
dict 类型不但在各种程序里广泛使用,它也是 Python 语言的基石。模块的命名空间、实例的属性和函数的关键字参数中都可以看到字典的身影。跟它有关的内置函数都在 __builtins__.__dict__模块中。
正是因为字典至关重要,Python 对它的实现做了高度优化,而散列表则是字典类型性能出众的根本原因。集合(set)的实现其实也依赖于散列表,因此本章也会讲到它。
一. 范映射类型
collections.abc 模块中有 Mapping 和 MutableMapping 这两个抽象基类,它们的作用是为 dict 和其他类似的类型定义形式接口。collections.abc 中的 MutableMapping 和它的超类的UML 类图(箭头从子类指向超类)如下:
非抽象映射类型一般不会直接继承这些抽象基类,它们会直接对dict 或是 collections.User.Dict 进行扩展。这些抽象基类的主要 作用是作为形式化的文档,它们定义了构建一个映射类型所需要的最基本的接口。然后它们还可以跟 isinstance 一起被用来判定某个数据是不是广义上的映射类型:
标准库里的所有映射类型都是利用 dict 来实现的,因此它们有个共同的限制,即只有可散列的数据类型才能用作这些映射里的键。可散列类型的定义:如果一个对象是可散列的,那么在这个对象的生命周期中,它的散列值是不变的,而且这个对象需要实现 __hash__() 方法。如果两个可散列对象是相等的,那么它们的散列值一定是一样的。
原子不可变数据类型(str、bytes 和数值类型)都是可散列类型,frozenset 也是可散列的,因为根据其定义,frozenset 里 只能容纳可散列类型。元组的话,只有当一个元组包含的所有元素都是可散列类型的情况下,它才是可散列的:
一般来讲用户自定义的类型的对象都是可散列的,散列值就是它们的 id() 函数的返回值,所以所有这些对象在比较的时候都是不相等的。如果一个对象实现了 __eq__ 方法,并且在方法中用到了这个对象的内部状态的话,那么只有当所有这些内部状态都是不可变的情况下,这个对象才是可散列的。
演示1 字典提供了很多构造方法:
演示2 字典推导
二. 常见的映射方法
dict、collections.defaultdict 和 collections.OrderedDict 这三种映射类型(后面两个数据类型是 dict 的变种)的常见方法:
常见方法 | dict | defaultdict | OrderedDict | 方法说明 |
d.clear() | √ | √ | √ | 移除所有元素 |
d.__contains__(k) | √ | √ | √ | 检查k是否在d中 |
d.copy() | √ | √ | √ | 浅复制 |
d.__copy__() | × | √ | × | 用于支持copy.copy |
d.default_factory() | × | √ | × | 在__missing__函数中被调用的函数,用以给未找到的元素设置值 |
d.__delitem__(k) | √ | √ | √ | del d[k],移除键为k的元素 |
d.fromkeys(it, [initial]) | √ | √ | √ | 将迭代器it里的元素设置为映射里的键,如果有initial参数,就把它作为这些键对应的值(默认是None) |
d.get(k, [default]) | √ | √ | √ | 返回键k对应的值,如果字典里没有k,则返回None或者default |
d.__getitem__(k) | √ | √ | √ | 让字典d能用d[k]的形式返回键k对应的值 |
d.items() | √ | √ | √ | 返回d里所有的键值对 |
d.__iter__() | √ | √ | √ | 获取键的迭代器 |
d.keys() | √ | √ | √ | 获取所有的键 |
d.__len__() | √ | √ | √ | 可以用len(d)的形式得到字典里键值对的数量 |
d.__missing__(k) | × | √ | × | 当__getitem__找不到对应键的时候,这个方法会被调用 |
d.move_to_end(k, [last]) | × | × | √ | 把键为k的元素移动到最靠前或最靠后的位置(last的默认值为True) |
d.pop(k, [default]) | √ | √ | √ | 返回键k所对应的值,然后移除这个键值对。若果没有这个键,返回None或者default |
d.popitem() | √ | √ | √ | 随机返回一个键值对,并从字典里移除它 |
d.__reversed__() | × | × | √ | 返回倒序的键的迭代器 |
d.setdefault(k, [default]) | √ | √ | √ | 若字典里有键k,则把它对应的值设为default,然后返回这个值;若无,则让d[k] = default,然后返回default |
d.__setitem__(k, v) | √ | √ | √ | 实现d[k] = v的操作,把k对应的值设为v |
d.update(m, [**kwargs]) | √ | √ | √ |
m 可以是映射或者键值对迭代器,用来更新 d 里对应的条目
|
d.values()
|
√ | √ | √ |
返回字典里的所有值
|