正则表达式使用的一些技巧
用正则表达式用了10年了,之前的总结一直以word形式,写的零散总结都仿造cnblog上面,特别想总结一下。
常见正则
中文名称 | 名称 |
---|---|
<.+?> |
非贪婪模式 找到第一个> 就停止 |
<.+> |
贪婪模式 直到找到正文的最后一个>才停止 |
(?<=(href=")) .{1,200}(?=(">)) |
匹配以(href=")开头 、以(">)结尾 的字符串,捕获(存储) 到分组中 |
(?<=(?: href=")).{1,200}(?=(?: ">)) |
匹配以(href=")开头 、以(">)结尾 的字符串,不捕获(存储) 到分组中 |
常见正则效果
(?<=(href="))
.{1,200}(?=(">))
(?<=(?:
href=")).{1,200}(?=(?:
">))
正则常用句法
句法 | 说明 |
---|---|
(?:pattern) |
非获取匹配,匹配pattern但不获取匹配结果,不进行存储供以后使用。这在使用或字符(|) 来组合一个模式的各个部分是很有用。例如industr(?:y|ies) 就是一个比industry|industries 更简略的表达式。 |
(?=pattern) |
非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。例如,Windows(?=95|98|NT|2000) 能匹配Windows2000 中的Windows ,但不能匹配Windows3.1 中的“Windows`。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
(?!pattern) |
非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。例如Windows(?!95|98|NT|2000) 能匹配“Windows3.1”中的Windows ,但不能匹配Windows2000 中的Windows 。 |
(?<=pattern) |
非获取匹配,反向肯定预查,与正向肯定预查类似,只是方向相反。例如,(?<=95|98|NT|2000)Windows 能匹配2000Windows 中的Windows ,但不能匹配3.1Windows 中的Windows 。 |
(?<!pattern) |
非获取匹配,反向否定预查,与正向否定预查类似,只是方向相反。例如(?<!95|98|NT|2000)Windows 能匹配3.1Windows 中的Windows ,但不能匹配2000Windows 中的Windows 。这个地方不正确,有问题 |