Python 之re模块-白红宇

Python 之re模块

阅读量：6973 次

发布时间：2019-06-27

本文共 6076 字，大约阅读时间需要 20 分钟。

re.finditer(pattern, string, flags=0) #与findall函数一样，但是返回的是迭代器对象

shell脚本学好需要熟练掌握三部分：指令-正则表达式-控制流，可见正则表达式的重要行，同样在python中，正则表达式也是非常重要的一环。

re模块就是python的正则表达式模块。

>>> import re>>> re.re.DEBUG              re._MAXCACHE          re.__repr__(          re.copy_regre.DOTALL             re.__all__            re.__setattr__(       re.error(re.I                  re.__class__(         re.__sizeof__(        re.escape(re.IGNORECASE         re.__delattr__(       re.__str__(           re.findall(re.L                  re.__dict__           re.__subclasshook__(  re.finditer(re.LOCALE             re.__doc__            re.__version__        re.match(re.M                  re.__file__           re._alphanum          re.purge(re.MULTILINE          re.__format__(        re._cache             re.search(re.S                  re.__getattribute__(  re._cache_repl        re.split(re.Scanner            re.__hash__(          re._compile(          re.sre_compilere.T                  re.__init__(          re._compile_repl(     re.sre_parsere.TEMPLATE           re.__name__           re._expand(           re.sub(re.U                  re.__new__(           re._pattern_type(     re.subn(re.UNICODE            re.__package__        re._pickle(           re.sysre.VERBOSE            re.__reduce__(        re._subx(             re.template(re.X                  re.__reduce_ex__(     re.compile(

re.compile(pattern, flags=0) #创建一个正则表达式模式对象，可以调用下面的方法。re.escape('string') #返回一个字符串，其中的所有非字母数字字符都带有反斜杠

re.findall(pattern, string, flags=0) #返回一个符合模式的字符串列表，>>> re.findall('[1-9]','du1diao3han9')['1', '3', '9']

re.match(pattern, string, flags=0) #检查字符串的开口是有与模式匹配，若匹配返回一个对象，否则返回none>>> print re.match('z','s')None>>> re.match('d','du diao')<_sre.SRE_Match object at 0xb735bbf0>

re.search(pattern, string, flags=0) #在字符串中搜索是否有匹配模式的值若有，返回一个对象实例，否则返回none<_sre.SRE_Match object at 0xb735bbf0>>>> re.search('zhu','luozhuhao')<_sre.SRE_Match object at 0xb7282a30>>>> re.search('xzhu','luozhuhao')>>> print re.search('xzhu','luozhuhao')None

re.split(pattern, string, maxsplit=0, flags=0)>>> re.split('\|','888|zhu|999')['888', 'zhu', '999']

re.sub(pattern, repl, string, count=0, flags=0) #用字符串repl替换string中符合模式的字符>>> re.sub('[1-9]','du juan','ni ke 9 zhidao 8')'ni ke du juan zhidao du juan'

re.sub(pattern, repl, string, count=0, flags=0)#与sub函数一样，但是返回的是一个元组，包括新字符串和替换次数>>> re.subn('[1-9]','du juan','ni ke 9 zhidao 8')('ni ke du juan zhidao du juan', 2)

有re.compile():函数编译的正则表达式对象具有以下方法：

>>> r = re.compile('the')r.findall(     r.match(      r.search(      r.sub(r.finditer(    r.scanner(     r.split(       r.subn(#和上面的函数意义一样，就是参数有些区别

有search（）和match（）返回的对象具有的方法如下

m.group([group1,group2,...]) #返回匹配值的一个或多个子分组，其中参数指定分组编号或名称，如果未指定分组编号和名称则将返回整个匹配值m.groups() #返回一个元组，包含与模式中所有分组匹配的文本何为分组：datapat = re.compile('(\d+)/(\d+)/(\d+)')把正则表达式放在小括号中称为分组从左边数第一个小括号称为group（1）第二个group（2）最外面的括号包含整个表达式的称为group（0）

常用的转义码：

\d  #一个数字\D  #一个非数字\s  #空白符（制表符，空格，换行符）\S  #非空白符\w  #字母数字\W  #非字母数字

常用的锚定码：

^ #字符串或行的开始$ #字符串会行的结束\A #字符串的开始\Z #字符串的结束\b #一个单词开头或末尾的空串\B #不在一个单词开头或末尾的空串

常用的重复匹配：

a* #字符a可以出现0个或多个aa+ #字符a至少出现1个a？#a可以出现0个或1个贪婪模式与关闭贪婪模式默认是贪婪模式匹配，即是尽可能多的匹配？可以关闭贪婪模式a*？ #a出现0个a+？ #a出现1个a？？#a出现0个

[root@zhu ~]# cat zhu.py#!/usr/bin/pythonimport redef test_patterns(text,patterns=[]):    for pattern,desc in patterns:        print 'pattern: %r (%s)\n' %(pattern,desc)        print '%r' %text        for match in re.finditer(pattern,text):            s = match.start()            e = match.end()            substr = text[s:e]            n_backslashes = text[:s].count('\\')            prefix = '.' * (s + n_backslashes)            print '%s%r' %(prefix,substr)        print    returntest_patterns('abbaaabbbbaaaaa',[('ab*','a followed by b')])print '1>################################'test_patterns('abbaaabbbbaaaaa',[('ab+','a followed by b')])print '2>################################'test_patterns('abbaaabbbbaaaaa',[('ab?','a followed by b')])print '3>################################'test_patterns('abbaaabbbbaaaaa',[('ab*?','a followed by b')])print '4>################################'test_patterns('abbaaabbbbaaaaa',[('ab+?','a followed by b')])print '5>################################'test_patterns('abbaaabbbbaaaaa',[('ab??','a followed by b')])print '6>################################'test_patterns('abbaaabbbbaaaaa',[('ab{2,3}','a followed by b')])print '7>################################'test_patterns('abbaaabbbbaaaaa',[('ab{2,3}?','a followed by b')])print '8>################################'test_patterns('abbaaabbbbaaaaa',[('ab{3}','a followed by b')])print '9>################################'test_patterns('abbaaabbbbaaaaa',[('ab{3}?','a followed by b')])print '1[root@zhu ~]# python zhu.pypattern: 'ab*' (a followed by b)'abbaaabbbbaaaaa''abb'...'a'....'a'.....'abbbb'..........'a'...........'a'............'a'.............'a'..............'a'1>################################pattern: 'ab+' (a followed by b)'abbaaabbbbaaaaa''abb'.....'abbbb'2>################################pattern: 'ab?' (a followed by b)'abbaaabbbbaaaaa''ab'...'a'....'a'.....'ab'..........'a'...........'a'............'a'.............'a'..............'a'3>################################pattern: 'ab*?' (a followed by b)'abbaaabbbbaaaaa''a'...'a'....'a'.....'a'..........'a'...........'a'............'a'.............'a'..............'a'4>################################pattern: 'ab+?' (a followed by b)'abbaaabbbbaaaaa''ab'.....'ab'5>################################pattern: 'ab??' (a followed by b)'abbaaabbbbaaaaa''a'...'a'....'a'.....'a'..........'a'...........'a'............'a'.............'a'..............'a'6>################################pattern: 'ab{2,3}' (a followed by b)'abbaaabbbbaaaaa''abb'.....'abbb'7>################################pattern: 'ab{2,3}?' (a followed by b)'abbaaabbbbaaaaa''abb'.....'abb'8>################################pattern: 'ab{3}' (a followed by b)'abbaaabbbbaaaaa'.....'abbb'9>################################pattern: 'ab{3}?' (a followed by b)'abbaaabbbbaaaaa'.....'abbb'10>################################0>################################'