re模块
一.re 模块的介绍
1.什么是正则表达式"
定义:正则表达式是一种对字符和特殊字符操作的一种逻辑公式,从特定的字符中,用正则表达字符来过滤的逻辑。(也是一种文本模式;)
2、正则表达式可以帮助我们检查字符是否与某种模式匹配
3、re表达式作用?
快速高效查找和分析字符比对自读,也叫模式匹配,比如:查找,比对,匹配,替换,插入,添加,删除等能力。
4.格式:
import re
====================================================
二、认识正则表达式中的特殊元素?
\d:数字0-9
\D:非数字
\s:空白字符
\n:换行符
\w 匹配字母数字
\W 匹配非字母数字
^:表示的匹配字符以什么开头
$:表示的匹配字符以什么结尾
:匹配前面的字符0次或n次 eg:ab (* 能匹配a 匹配ab 匹配abb )
+:匹配+前面的字符1次或n次
?:匹配?前面的字符0次或1次
{m}:匹配前一个字符m次
{m,n}:匹配前一个字符m到n次(包括n次),m或n可以省略,mn都是
====================================================
常用的四种方法
1、findall
从第一个字符开始查找,找到全部相关匹配为止,找不到返回一个空列表[]
2、match
从第一个字符开始匹配,如果第一个字符不是要匹配的类型、则匹配失败得到一个none值
注意:如果规则带了’+’,则匹配1次或者多次,无’+'只匹配一次
3、search
从第一个字符开始查找、一找到就返回第一个字符串,找到就不往下找,找不到则报错
4、compile(不考虑,也不讲)
编译模式生成对象,找到全部相关匹配为止,找不到返回一个列表[]
====================================================
三\案例:
1、findall
从第一个字符开始查找,找到全部相关匹配为止,找不到返回一个空列表[]
import re
s="abcdeemtppppaa"
dx=re.findall("a",s)
print(dx)
2、match
从第一个字符开始匹配,如果第一个字符不是要匹配的类型、则匹配失败得到一个none值
注意:如果规则带了’+’,则匹配1次或者多次,无’+'只匹配一次
import re
s="ab2cdeem2tpp1ppaa"
dx=re.match("a",s)
print(dx)
3、search
从第一个字符开始查找、一找到就返回第一个字符串,找到就不往下找,找不到则报错
import re
s="b2cdeem2tpp1ppaa"
dx=re.search("a",s)
print(dx)
====================================================
四\特殊符号的使用
(1)\d:数字0-9
import re
s="b2cdeem2tpp1ppaa"
dx=re.findall("\d",s)
print(dx)
(2)\D:非数字
import re
s="b2cdeem2tpp1ppaa"
dx=re.findall("\D",s)
print(dx) #['b', 'c', 'd', 'e', 'e', 'm', 't', 'p', 'p', 'p', 'p', 'a', 'a']
(3)\s:空白字符
import re
s="b2c deem 2tpp1ppaa"
dx=re.findall("\s",s)
print(dx)
(4)\n:换行符
import re
s="b2c de\nem 2tpp1pp\naa"
dx=re.findall("\n",s)
print(dx)
\w 匹配字母数字
\W 匹配非字母数字
^:表示的匹配字符以什么开头
import re
s="ab!##%2c de\nem 2tpp1pp\naa"
dx=re.findall("^a",s)
print(dx)
$:表示的匹配字符以什么结尾
*:匹配前面的字符0次或n次 eg:ab (* 能匹配a 匹配ab 匹配abb )
import re
s="ab!##%2c de\nem 2tpp1aaapp\naa"
dx=re.findall("a*",s)
print(dx)
+:匹配+前面的字符1次或n次
import re
s="ab!##%2c de\nemaaaaaaa 2tpp1aaapp\naa"
dx=re.findall("a+",s)
print(dx)
?:匹配?前面的字符0次或1次
import re
s="ab!##%2c de\nemaaaaaaa 2tpp1aaapp\naa"
dx=re.findall("a?",s)
print(dx)
{m}:匹配前一个字符m次]
import re
s="ab!##%2c de\nemaa 2tpp1aaapp\naa"
dx=re.findall("a{3}",s)
print(dx)
{m,n}:匹配前一个字符m到n次(包括n次),m或n可以省略,mn都是
import re
s="ab!##%2c de\nemaa 2tpp1aaapp\naaaaa"
dx=re.findall("a{1,5}",s)
print(dx)
=======================================================
re 标识符号: 不区分大小写
import re
s="ab!##%2c de\nemaa 2tpp1aAApp\naaaaa"
dx=re.findall("a{1,5}",s,flags=re.I)
print(dx)
=======================================================
sub 替换:
import re
s="ab!##%2c de\nemaa 2tpp1aAApp\naaaaa"
dx=re.sub("\d","8",s,flags=re.I)
print(dx)