Python爬虫入门与实践(三)入门介绍:正则表达式
一、正则表达式
1、概念:是一种通用的字符串表达框架
2、作用:
- 表达文本类型的特征
- 同时查找或替换一组字符串(如软件everything)
3、使用方法:编译:将字符串转换成正则表达式
4、正则表达式的常用操作符:
- . 表示任意字符
- [] 给出单个字符取值范围
- [^] 排除单个字符取值范围
- * 之前一个字符为任意次
- + 之前一个字符至少有一次
- ? 之前一个字符有或者没有一次
- | 或符号,左右任意一个
- {m}
- {m,n}
- ^ 异或,匹配开头字符
- $ 匹配结尾
- ()
- \d
- \w
4、一些经典的正则表达式:
二、RE库
1、介绍:RE库是python标准库,直接import re
2、正则表达式的表达:
raw string原生字符串:不包含转义字符的字符串
3、Re库的主要功能函数
【注意】match 是从第一个字符开始匹配的,所以要先search再match
【终于明白了什么叫做面向对象……】
4、贪婪匹配&最小匹配