python正则表达式

看完Python核心编程后,对正则表达式做出的总结.

1.核心函数和方法:

python正则表达式
上述较常用的函数有:
re.findall() # 匹配出所有满足条件的
re.search() # 只匹配一个满足条件的(从左到右)
re.match() #从开头开始匹配一个满足条件的(从左到右)
re.compile() # 编译成正则表达式模式,返回一个正则表达式对象
re.I # 不区分大小写的匹配

2. 匹配对象: 是调用match()/search()方法后返回的对象group(), groups(), group()要么返回整个匹配,要么返回指定组的对象。
3. 使用主要的方法进行匹配:

re.match()
m = 'foo thefood'
re.match('foo', m).group()
>>'foo'
re.match('foo',m).group()
>>'foo'
re.findall('foo', m)
>>['foo','foo']
# 注:若抛出 AttributeError 异常,则表示没有匹配成功,返回值为None

总结,re.findall() 没有group()绑定方法,返回的是所有满足条件的字符串
re.match()/re.search() 只返回第一个满足条件的字符串

4. 匹配单个字符.

    eres = re.compile('d.e')
    re.search(eres, 'd;e').group()
>>'d;e'

5. 常见正则表达式符号
python正则表达式
python正则表达式
6. 创建字符集

m = '[os]d[123]'  ## 第一个字符为 'o' 或者 ‘s’ 第三个字符为‘1’|‘2’|‘3’
re.search(m, 'od3').group()
>>'od3'

7.重复,特殊字符,分组
+:出现一次或者多次)
?:出现0次或者1次
{m,n}:出现m~n次
*: 出现0次或者多次
例子,匹配邮箱:

    eres = re.compile('\[email protected]\w+\.com')
    re.search(eres, '[email protected]').group()
    >> '[email protected]'
    s = 'This and that.'
re.findall(r'(th\w+)', s, re.I)
>>['This', 'that'] # 列表的形式返回
re.findall(r'(th\w+) and (th\w+)', s, re.I)
>>: [('This', 'that')]  # 元组的形式返回

8.re.sub(pattern, rep1, string, count = 0, flag = 0) 将匹配到的字符串替换成rep1中的样式(rep1也可以表示字符的顺序)

#将string 中的x 替换成 Mr. Smith
print(re.sub('x', 'Mr. Smith', 'please x\n dear x')) 
>>please Mr. Smith
dear Mr. Smith
#将MM/DD/YYYY转换成 DD-MM-YYYY
re.sub(r'(\d{2})/(\d{2})/(\d{4})', r'\2-\1-\3', '03/22/2019')
>>'22-03-2019'

r.subn()将替换后的字符串和表示替换总数的数字一起作为一个拥有两个元素的元组返回。

re.subn(r'(\d{2})/(\d{2})/(\d{4})', r'\2-\1-\3', '03/22/2019')  
>>('22-03-2019', 1)
print(re.subn('x', 'Mr. Smith', 'please x\n dear x'))
>>('please Mr. Smith\n dear Mr. Smith', 2)