Python 正则表达式 语法 方法

Python 正则表达式

语法

在线工具:正则表达式可视化工具与正则表达式在线测试工具

特殊字符

\ + 字符

'\' 和一个字符组成的特殊序列在以下列出。 如果普通字符不是ASCII数位或者ASCII字母,那么正则样式将匹配第二个字符。比如,\$ 匹配字符 '$'.

  • \number

    匹配数字代表的组合。每个括号是一个组合,组合从1开始编号。

    • 比如 (.+) \1 匹配 'the the' 或者 '55 55', 但不会匹配 'thethe' (注意组合后面的空格)。这个特殊序列只能用于匹配前面99个组合。
    • 如果 number 的第一个数位是0, 或者 number 是三个八进制数,它将不会被看作是一个组合,而是八进制的数字值。在 '['']' 字符集合内,任何数字转义都被看作是字符。
  • \A

    只匹配字符串开始。

  • \b

    匹配空字符串,但只在单词开始或结尾的位置。一个单词被定义为一个单词字符的序列。

    • 注意,通常 \b 定义为 \w\W 字符之间,或者 \w 和字符串开始/结尾的边界, 意思就是 r'\bfoo\b' 匹配 'foo', 'foo.', '(foo)', 'bar foo baz' 但不匹配 'foobar' 或者 'foo3'
    • 默认情况下,Unicode字母和数字是在Unicode样式中使用的,但是可以用 ASCII标记来更改。如果 LOCALE标记被设置的话,词的边界是由当前语言区域设置决定的,\b 表示退格字符,以便与Python字符串文本兼容。
  • \B

    匹配空字符串,但 能在词的开头或者结尾。意思就是 r'py\B' 匹配 'python', 'py3', 'py2', 但不匹配 'py', 'py.', 或者 'py!'. \B\b 的取非,所以Unicode样式的词语是由Unicode字母,数字或下划线构成的,虽然可以用 ASCII标志来改变。如果使用了 LOCALE 标志,则词的边界由当前语言区域设置。

  • \d

    对于 Unicode (str) 样式:匹配任何Unicode十进制数(就是在Unicode字符目录[Nd]里的字符)。这包括了 [0-9] ,和很多其他的数字字符。如果设置了 ASCII标志,就只匹配 [0-9]

    -对于8位(bytes)样式:匹配任何十进制数,就是 [0-9]

  • \D

    匹配任何非十进制数字的字符。就是 \d 取非。 如果设置了 ASCII标志,就相当于 [^0-9]

  • \s

    • 对于 Unicode (str) 样式:匹配任何Unicode空白字符(包括 [ \t\n\r\f\v] ,还有很多其他字符,比如不同语言排版规则约定的不换行空格)。如果 ASCII 被设置,就只匹配 [ \t\n\r\f\v]

    • 对于8位(bytes)样式:匹配ASCII中的空白字符,就是 [ \t\n\r\f\v]

  • \S

    匹配任何非空白字符。就是 \s 取非。如果设置了 ASCII标志,就相当于 [^ \t\n\r\f\v]

  • \w

    对于 Unicode (str) 样式:匹配Unicode词语的字符,包含了可以构成词语的绝大部分字符,也包括数字和下划线。如果设置了 ASCII标志,就只匹配 [a-zA-Z0-9_] 。对于8位(bytes)样式:匹配ASCII字符中的数字和字母和下划线,就是 [a-zA-Z0-9_] 。如果设置了 LOCALE标记,就匹配当前语言区域的数字和字母和下划线。

  • \W

    匹配非单词字符的字符。这与 \w 正相反。如果使用了ASCII旗标,这就等价于 [^a-zA-Z0-9_]。如果使用了 LOCALE旗标,则会匹配当前区域中既非字母数字也非下划线的字符。

  • \Z

    只匹配字符串尾。

  • 绝大部分Python的标准转义字符也被正则表达式分析器支持。:

\a      \b      \f      \n
\N      \r      \t      \u
\U      \v      \x      \\

Note:

\b 被用于表示词语的边界,它只在字符集合内表示退格,比如 [\b]

'\u', '\U''\N' 转义序列只在 Unicode 模式中可被识别。 在 bytes 模式中它们会导致错误。 未知的 ASCII 字母转义序列保留在未来使用,会被当作错误来处理。

八进制转义包含为一个有限形式。如果首位数字是 0, 或者有三个八进制数位,那么就认为它是八进制转义。其他的情况,就看作是组引用。对于字符串文本,八进制转义最多有三个数位长。

元字符

元字符描述
.匹配任意单个字符,除了\n
[ ]字符种类,匹配方括号内任意字符
[^ ]否定的字符种类,匹配除了方括号里的任意字符
*匹配0到任意次重复,相当于{0,}
+匹配1到任意次重复,相当于{1,}
?匹配0到1次重复,相当于{0,1}
{n, m}对正则式进行 mn 次匹配
(xyz)字符集,匹配与xyz完全相等的字符串
|或运算,匹配符号前或符号后的字符
\转义字符,用于匹配保留字() [] {} . * + ? ^ $ \ |
^匹配字符串开始的位置
$匹配字符串结尾的位置

拓展语法

拓展语法

  • (?aiLmsux-imsx:…)

    ('a', 'i', 'L', 'm', 's', 'u', 'x' 中的0或者多个, 之后可选跟随 '-' 在后面跟随 'i' , 'm' , 's' , 'x' 中的一到多个 .) 该组匹配空字符串; 字母设置相应的标志:

    • 这些字符为表达式的其中一部分 对应一种匹配标志: re.A (只匹配ASCII), re.I(忽略大小写), re.L (语言依赖), re.M (多行), re.S(点匹配所有字符), re.U (Unicode匹配), and re.X (冗长模式)。(标记描述)
    • 'a', 'L' and 'u' 作为内联标记是相互排斥的, 所以它们不能结合在一起,或者跟随 '-' 。 当他们中的某个出现在内联组中,它就覆盖了括号组内的匹配模式。
      • 在Unicode样式中, (?a:...) 切换为 只匹配ASCII, (?u:...) 切换为Unicode匹配 (默认).
      • 在byte样式中 (?L:...) 切换为语言依赖模式, (?a:...) 切换为 只匹配ASCII (默认)。这种方式只覆盖组合内匹配,括号外的匹配模式不受影响。
  • (?P…)

    (命名组合)类似正则组合,但是匹配到的子串组在外部是通过定义的 name来获取的。组合名必须是有效的Python标识符,并且每个组合名只能用一个正则表达式定义,只能定义一次。一个符号组合同样是一个数字组合,就像这个组合没有被命名一样。命名组合可以在三种上下文中引用。如果样式是 (?P['"]).*?(?P=quote) (也就是说,匹配单引号或者双引号括起来的字符串):

    引用组合 “quote” 的上下文引用方法
    在正则式自身内(?P=quote) (如示),\1
    处理匹配对象 mm.group('quote'),m.end('quote') (等)
    传递到 re.sub() 里的 repl 参数中\g,\g

    ,\1

  • (?P=name)

    反向引用一个命名组合;它匹配前面那个叫 name 的命名组中匹配到的串同样的字串。

  • (?#…)

    注释;里面的内容会被忽略。

  • (?=…)

    匹配 的内容,但是并不消费样式的内容。这个叫做 lookahead assertion(正先行断言)。比如, Isaac (?=Asim


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部