Python 正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

本章节主要介绍Python中常用的正则表达式处理函数。

re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

函数语法：

Python高级篇————2、Python正则表达式

函数参数说明：

Python高级篇————2、Python正则表达式

匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

Python高级篇————2、Python正则表达式

以上实例运行输出结果为：

Python高级篇————2、Python正则表达式

实例：

Python高级篇————2、Python正则表达式

以上实例执行结果如下：

Python高级篇————2、Python正则表达式

re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。

函数语法：

Python高级篇————2、Python正则表达式

函数参数说明：

Python高级篇————2、Python正则表达式

匹配成功re.search方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

Python高级篇————2、Python正则表达式

以上实例运行输出结果为：

Python高级篇————2、Python正则表达式

实例：

Python高级篇————2、Python正则表达式

以上实例执行结果如下：

Python高级篇————2、Python正则表达式

re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

Python高级篇————2、Python正则表达式

以上实例运行结果如下：

Python高级篇————2、Python正则表达式

检索和替换

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

语法：

Python高级篇————2、Python正则表达式

参数：

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

以上实例执行结果如下：

Python高级篇————2、Python正则表达式

repl 参数是一个函数

以下实例中将字符串中的匹配的数字乘于 2：

Python高级篇————2、Python正则表达式

执行输出结果为：

Python高级篇————2、Python正则表达式

re.compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法格式为：

Python高级篇————2、Python正则表达式

参数：

pattern : 一个字符串形式的正则表达式
flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
1. re.I 忽略大小写
2. re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
3. re.M 多行模式
4. re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
5. re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
6. re.X 为了增加可读性，忽略空格和 # 后面的注释

实例

Python高级篇————2、Python正则表达式

在上面，当匹配成功时返回一个 Match 对象，其中：

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group()或 group(0)；
start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；
span([group]) 方法返回 (start(group), end(group))。