regular expression 正则表达式 regex 或 RE,描述一个规则的表达式。
python 中的 re模块,需要导入 import re
re.match(正则表达式,要匹配的字符串) ,括号中两个参数,用来进行正则匹配检查的方法
写正则表达式,需要加上 r ,转义原始字符串,比如:
re.findall(r"\b[a-z]+\b", s) s是需要匹配的字符串 r 是row,原始的,原始字符串,转义原始字符串。
表示字符的规则
表示数量信息
备注,以下是等价的:
{0,1} 等价于 ?
{0,} 等价于 *
{1,} 等价于 +
\d 等价于 [0-9]
\D 等价于 [^0-9]
表示边界的匹配规则
表示匹配分组
正则表达式常用的匹配方法:
re.findall(r"\b[a-zA-Z]+\b", s),re.match() 正则表达式常用的匹配方法还有 match和search
三者之间的区别为:
match:从字符串的起始位置匹配正则表达式,如果匹配,就返回匹配成功的结果;如果不匹配,就返回None;
search: 它在匹配时会扫描整个字符串,然后返回第一个成功匹配的结果,如果搜索完了还没找到,则返回None;
findall: 该方法会搜索整个字符串,然后返回一个list,匹配正则表达式的所有内容。
re 模块的高级用法
search 匹配搜索的内容 只拿到第一个就结束了
findall 全部搜索出来,整个字符串,所有匹配正则表达式的内容
sub 将匹配到的数据进行替换
\d+ 是贪婪模式
\d+? 关闭贪婪模式
.*? 用的最多的一种,. 匹配所有字符,
re.S = re.DOTALL(dotall) 让点可以匹配所有字符,包括换行符
re.M = re.MULTILINE(multiline) 指定上尖号(^) 匹配每一行的开头,多行匹配,影响 ^ 和 $
re.I = re.IGNORAN 忽略大小写(ignorance) 使匹配对大小写不敏感,忽略大小写
re.findall('.+', 'abc\ndef\ng', flags = re.DOTALL)