python爬虫工程师成长之路三正则表达式与Cooki

文章目录

正则表达式介绍
正则表达式基础

原子
元字符
模式修正
贪婪模式、懒惰模式
常用函数

re.match()
re.search()
全局匹配函数
re.sub()

Cookie介绍
cookie处理——cookiejar

正则表达式介绍

正则表达式就是描述字符串排列的一种规则，其主要用于字符串的匹配，经常用于找到某一类符合格式要求的数据；在python中我们经常用re模块来实现正则表达式

正则表达式基础

原子

原子是正则表达式最基本的组成单位，正则表达式至少包含一个一个原子，常见的原子有：

普通字符
非打印字符
通用字符
原子表

普通字符
普通字符如数字，字母，下划线等都可以作为原子，yes中含有三个原子：y、e、s

hello中含有he，所以匹配成功
python爬虫工程师成长之路三正则表达式与Cooki
非打印字符
非打印字符指的是字符串中用于格式控制的符号常见的有\n换行符，\t制表符

a中有换行，所以匹配成功
python爬虫工程师成长之路三正则表达式与Cooki
通用字符
通用字符：一个原子可以匹配一类字符，人们常用的
常见的通用字符及其意义

字符	意义
\w	匹配任意一个字母、数字或下划线
\W	匹配除字母、数字和下划线以外的任意一个字符
\d	匹配任意一个十进制数
\D	匹配除十进制数以外的任意一个字符
\s	匹配任意一个空白字符
\S	匹配除空白字符以外的任意一个字符

匹配a中含有wpython的部分
python爬虫工程师成长之路三正则表达式与Cooki
原子表
原子表用[]表示，使用原子表可以定义一组地位平等的原子，匹配的时候取原子表中任意一个原子进行匹配，如[abc]str可以匹配字符串‘astr’，‘bstr’，‘cstr’；[^]代表除原子表里的均可以匹配，如 [^abc]str可以匹配[d-z]str，不能匹配
‘astr’，‘bstr’，‘cstr’

python爬虫工程师成长之路三正则表达式与Cooki

元字符

元字符：正则表达式中具有特殊含义的字符；元字符分为任意匹配字符，边界限制元字符，界定符，模式选择符，模式单元等

任意匹配字符
任意匹配字符‘.’，可用于匹配一个除换行符以外的任意字符
python爬虫工程师成长之路三正则表达式与Cooki
边界限制元字符

用‘^‘匹配字符串的开始， ‘^abc‘表示可以匹配以abc开头的字符串，其余均不匹配
用’$‘匹配字符串的结束，‘$abc‘表示可以匹配以abc结尾的字符串，其余均不匹配

限定符

常见限定符及其含义

限定符	含义
*	匹配0次、1次或多次前面的原子
？	匹配0次、1次前面的原子
+	匹配1次或多次前面的原子
{n}	前面的原子恰好出现n次
{n,}	前面的原子至少出现n次
{n,m}	前面的原子至少出现n次，至多出现m次
\|	模式选择符
()	模式单元符

*实例
匹配任意次，可以是0次
?实例
匹配0次或1次表示可以匹配不到
+实例
匹配一次或多次，不能是0次
{n}实例
{n}匹配前面原子恰好出现n次，其余不匹配
{n,}实例
{n,}匹配前面原子出现次数大于等于n，小于n的无法匹配
{n,m}实例
匹配前面原子出现次数在[n,m]之间

模式选择符
模式选择符’|'可以设置多个匹配模式，匹配时满足任意一个都可以

模式单元符
模式单元符‘()’，可以用()将原子组合成一个整体用于匹配，如(aa)表示把aa当做一个整体进行匹配，此时字符a是无法匹配的