【总结】正则表达式
逻辑关系:正则表达式的逻辑关系正则表达式之间的逻辑关系可以简单地用与、或、非来描述,如表所示。通常来说,正则表达式可以看做这三种逻辑关系的组合。下面分析这三种逻辑。1.与“与” 是正则表达式中最普遍的逻辑关系。一般来说,如果正则表达式中的元素没有任何量词(比如*、?、+)修饰,就是”与”关系。比如正则表达式:abc表示同时出现a、b、c三个字...
逻辑关系:
正则表达式的逻辑关系
正则表达式之间的逻辑关系可以简单地用与、或、非来描述,如表所示。

通常来说,正则表达式可以看做这三种逻辑关系的组合。下面分析这三种逻辑。
1.与
“与” 是正则表达式中最普遍的逻辑关系。一般来说,如果正则表达式中的元素没有任何量词(比如*、?、+)修饰,就是”与”关系。比如正则表达式:
abc
表示同时出现a、b、c三个字符。
连续字符是“与”关系的最佳代表。此外,有些环视结构也可以表达“与”关系。比如顺序肯定环视(?=exp)表示自身出现的位置后面能匹配表达式exp,换而言之,就是在它后面必须出现表达式exp。例如:
\w+(?=ing)
表示单词的后面必须是ing结尾。
除了顺序肯定环视外,逆序肯定环视也能表达“与”关系。
比如匹配DIV标签里的内容,例如<div>logo</div>中的logo,就可用以下正则表达式来匹配:
(?<=div>).*(?=</div>)
(?<=div>) 表示自身(即要匹配的部分)出现的位置前面匹配表达式”<div>” ,(?=</div>) 表示它后面需要匹配的表达式”</div>“,中间的”.*”就是匹配到的内容。
2.或
“或”是正则表达式中容易出现的逻辑关系。
如果“或”代表元素可以出现,也可以不出现,或者出现的次数不确定,可以用量词来表示“或”关系。比如以下表达式表示在此处,字符a可以出现,也可以不出现:
a?
以下表达式表示在此处,字符串ab必然要出现1次,也可以出现无限多次:
(ab)+
如果“或”表示出现的是某个元素的一个,那么可以使用字符组。比如以下正则表达式表示此处出现的字符是a、b、c中的任何一个:
[abc]
如果要匹配多个字符,则使用分支结构(……|……)。比如匹配单词foot及其复数形式,就可以用正则表达式:
f(oo|ee)t
或者使用如下形式
f[oe]{2}t
3.非
提到”非”,最容易想到正则表达式中的反义和”^”元字符。比如\d表示数字,那么其对应的\D就表示非数字;[a]表示a字符,那么[^a] 就表示这个字符不是a。
“非”关系最常用来匹配成对的标签,例如双引号字符串的匹配,首位两个双引号很容易匹配,其中的内容肯定不是双引号(暂不考虑转义的情况),所以用[^"] 表示,其长度不确定,用*来限定,所以整个表达式如下:
[^"]*
比如,需要匹配HTML里成对的A标签,先匹配左尖括号,紧接着是a字符,后面可以是任意内容,最后是一个右尖括号。在这对括号之间可以出现空格、字母、数字、引号等字符,但是不能出现“>”字符,于是就可以用排除型字符组“[^>]”来表示。再加上后面的配对标签,整个表达式如下:
<a[^>]*>.*<\/a>
运行下面这段代码验证这个表达式:
<?php
$reg = "#<a[^>]*>(.*)<\/a>#";
$str = '<a href="http://baidu.com">baidu</a>---<a href="http://sohu.com">sohu</a>';
preg_match_all($reg, $str, $m);
print_r($m);12345
运行结果:
Array
(
[0] => Array
(
[0] => <a href="http://baidu.com">baidu</a>---<a href="http://sohu.com">sohu</a>
)
[1] => Array
(
[0] => baidu</a>---<a href="http://sohu.com">sohu
)
)12345678910111213
发现结果不符合预期,出现了嵌套匹配。原因在于A标签之间的文本忘了做排除型匹配,于是修改后的正则表达式就成了<a[^>]*>([^<>]*)<\/a>。经过修改后就符合预期了。
<?php
$reg = "#<a[^>]*>([^<>]*)<\/a>#";
$str = '<a href="http://baidu.com">baidu</a>---<a href="http://sohu.com">sohu</a>';
preg_match_all($reg, $str, $m);
print_r($m);
运行结果为:
Array
(
[0] => Array
(
[0] => <a href="http://baidu.com">baidu</a>
[1] => <a href="http://sohu.com">sohu</a>
)
[1] => Array
(
[0] => baidu
[1] => sohu
)
)
注:上述例子也可以使用前一篇博文中讲过的懒惰匹配。修改正则如下:
<a[^>]*>(.*?)<\/a>
除了反义和排除型字符组外,否定环视也能表示“非”这种关系。比如有一串文字:“ab<p>onecde<div>fgh</div><img src=”“>”。现在需要匹配除P标签外的所有标签。换而言之,就是先匹配所有HTML标签,可以使用如下表达式:
</?\b[^>]+>
匹配闭合的“<XXX>”或“</XXX>”标签,然后再排除“XXX”或“/XXX”部分是P的标签,于是使用顺序否定环视,用表达式:
(?!/?p\b)
排除了“<”或“</”这个位置后是P字符的情况,这样就满足需求了。最终的表达式则为:
<(?!/?p\b)[^>]+>
初等(先来几个简单的,了解一下)
“ab" 表示以ab开头的字符串,例如”abc“ ”abc ed“
”ab+" 表示一个字符串,由一个a和至少一个b组成
"ab?" 表示一个字符串,由一个a和一个或零个b组成
"ab{2,3}" 表示一个字符串,由一个a和2-3个b组成
“access|boot" 表示一个字符串,为access或者boot
"(a|b)*c" 表示一个字符串, 由一个或多个a(或者b) + c 混合而成
[a-zA-Z] 表示一个字符,为一个字母
”[a-zA-Z0-9]$" 表示一个字符串,由一个字母或数字结束。
错误提示[ab\\d] 中括号中不能由转义字符
中等(文本框验证输入)
"[\d]{5,11}" 只能输入一串数字,5-11位,例如QQ号码
"[^\uFF00-\uFFFF]" 只能输入全角的
"[^\u4E00-\u9FA5]" 只能输入汉字
”[+]{0,1}(\d){1,3}[ ]?([-]?((\d)|[ ]){1,12})+ “ 检验普通电话、传真号码:可以“+”或数字开头,可含有减号和空格
”http[s]{0,1}:\/\/.+$/ 或 /^http[s]{0,1}:\/\/.{1,n}“ 检验URL
“([0-9A-F]{2})(-[0-9A-F]{2}){5}” 检验mac地址
“[-+]?\d+(\.\d+)?” 值类型
“\\d{4}-\\d{1,2}-\\d{1,2}” 日期格式2018-7-30
”(\\d+){5,11}@(\\w+)\\.(\\w){3}“ QQ邮箱格式
|
字符 |
描述 |
|
\ |
将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。 |
|
^ |
匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。 |
|
$ |
匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。 |
|
* |
匹配前面的子表达式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等价于{0,}。 |
|
+ |
匹配前面的子表达式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等价于{1,}。 |
|
? |
匹配前面的子表达式零次或一次。例如,“do(es)?”可以匹配“does”或“does”中的“do”。?等价于{0,1}。 |
|
{n} |
n是一个非负整数。匹配确定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的两个o。 |
|
{n,} |
n是一个非负整数。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。 |
|
{n,m} |
m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。 |
|
? |
当该字符紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,“o+?”将匹配单个“o”,而“o+”将匹配所有“o”。 |
|
. |
匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符,请使用像“(.|\n)”的模式。 |
|
(pattern) |
匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中则使用$0…$9属性。要匹配圆括号字符,请使用“\(”或“\)”。 |
|
(?:pattern) |
匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。 |
|
(?=pattern) |
正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
|
(?!pattern) |
正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始 |
|
(?<=pattern) |
反向肯定预查,与正向肯定预查类拟,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。 |
|
(?<!pattern) |
反向否定预查,与正向否定预查类拟,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。 |
|
x|y |
匹配x或y。例如,“z|food”能匹配“z”或“food”。“(z|f)ood”则匹配“zood”或“food”。 |
|
[xyz] |
字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”。 |
|
[^xyz] |
负值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“p”。 |
|
[a-z] |
字符范围。匹配指定范围内的任意字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。 |
|
[^a-z] |
负值字符范围。匹配任何不在指定范围内的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。 |
|
\b |
匹配一个单词边界,也就是指单词和空格间的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。 |
|
\B |
匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。 |
|
\cx |
匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的“c”字符。 |
|
\d |
匹配一个数字字符。等价于[0-9]。 |
|
\D |
匹配一个非数字字符。等价于[^0-9]。 |
|
\f |
匹配一个换页符。等价于\x0c和\cL。 |
|
\n |
匹配一个换行符。等价于\x0a和\cJ。 |
|
\r |
匹配一个回车符。等价于\x0d和\cM。 |
|
\s |
匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。 |
|
\S |
匹配任何非空白字符。等价于[^ \f\n\r\t\v]。 |
|
\t |
匹配一个制表符。等价于\x09和\cI。 |
|
\v |
匹配一个垂直制表符。等价于\x0b和\cK。 |
|
\w |
匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。 |
|
\W |
匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。 |
|
\xn |
匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。. |
|
\num |
匹配num,其中num是一个正整数。对所获取的匹配的引用。例如,“(.)\1”匹配两个连续的相同字符。 |
|
\n |
标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值。 |
|
\nm |
标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。如果\nm之前至少有n个获取,则n为一个后跟文字m的向后引用。如果前面的条件都不满足,若n和m均为八进制数字(0-7),则\nm将匹配八进制转义值nm。 |
|
\nml |
如果n为八进制数字(0-3),且m和l均为八进制数字(0-7),则匹配八进制转义值nml。 |
|
\un |
匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如,\u00A9匹配版权符号(©)。 |
常用正则表达式
|
用户名 |
/^[a-z0-9_-]{3,16}$/ |
|
密码 |
/^[a-z0-9_-]{6,18}$/ |
|
十六进制值 |
/^#?([a-f0-9]{6}|[a-f0-9]{3})$/ |
|
电子邮箱 |
/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/ /^[a-z\d]+(\.[a-z\d]+)*@([\da-z](-[\da-z])?)+(\.{1,2}[a-z]+)+$/ |
|
URL |
/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/ |
|
IP 地址 |
/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/ /^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/ |
|
HTML 标签 |
/^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/ |
|
删除代码\\注释 |
(?<!http:|\S)//.*$ |
|
Unicode编码中的汉字范围 |
/^[\u2E80-\u9FFF]+$/ |
正则表达式(regular expression)是计算机科学中的一个概念,又称规则表达式,通常简写为regex、regexp、RE、regexps、regexes、regexen。
正则表达式是一种文本模式。正则表达式是强大、便捷、高效的文本处理工具。正则表达式本身,加上如同一门袖珍编程语言的通用模式表示法(general pattern notation),赋予使用者描述和分析文本的能力。配合上特定工具提供的额外支持,正则表达式能够添加、删除、分离、叠加、插入和修整各种类型的文本和数据。
完整的正则表达式由两种字符构成:特殊字符(special characters)称为”元字符”(meta characters),其它为”文字”(literal),或者是普通文本字符(normal text characters,如字母、数字、汉字、下划线)。正则表达式的元字符提供了更强大的描述能力。
和文本编辑器一样,绝大多数高级编程语言均支持正则表达式,如Perl、Java、Python、C/C++,这些语言都有各自的正则表达式包。
一个正则表达式仅仅为一个字符串,它没有长度限制。“子表达式”指的是整个正则表达式中的一部分,通常是括号内的表达式,或者是由”|”分割的多选分支。
默认情况下,表达式中的字母是要区分大小写的。
常用的元字符:
- “.”: 匹配除"\n"之外的任何单个字符,若要匹配包括"\n"在内的任意字符,需使用诸如"[\s\S]"之类的模式;
- “^”:匹配输入字符串的开始位置,不匹配任何字符,要匹配”^”字符本身,需使用”\^”;
- “$”:匹配输入字符串结尾的位置,不匹配任何字符,要匹配”$”字符本身,需使用”\$”;
- “*”: 零次或多次匹配前面的字符或子表达式,”*”等效于”{0,}”,如”\^*b”可以匹配”b”、”^b”、”^^b”、…;
- “+”: 一次或多次匹配前面的字符或子表达式,等效于”{1,}”,如”a+b”可以匹配”ab”、”aab”、”aaab”、…;
- “?”: 零次或一次匹配前面的字符或子表达式,等效于”{0,1}”,如”a[cd]?”可以匹配”a”、”ac”、”ad”; 当此字符紧随任何其他限定符”*”、”+”、”?”、”{n}”、”{n,}”、”{n,m}”之后时,匹配模式是"非贪心的"。"非贪心的"模式匹配搜索到的、尽可能短的字符串,而默认的"贪心的"模式匹配搜索到的、尽可能长的字符串。如,在字符串"oooo"中,"o+?"只匹配单个"o",而"o+"匹配所有"o";
- “|”:将两个匹配条件进行逻辑"或"(Or)运算,如正则表达式”(him|her)”匹配"itbelongs to him"和"it belongs to her",但是不能匹配"itbelongs to them.";
- “\”: 将下一字符标记为特殊字符、文本、反向引用或八进制转义符,如,”n”匹配字符”n”,”\n”匹配换行符,序列”\\”匹配”\”,”\(“匹配”(“;
- “\w”:匹配字母或数字或下划线,任意一个字母或数字或下划线,即A~Z,a~z,0~9,_中任意一个;
- “\W”:匹配任意不是字母、数字、下划线的字符;
- “\s”:匹配任意的空白符,包括空格、制表符、换页符等空白字符的其中任意一个,与”[ \f\n\r\t\v]”等效;
- “\S”:匹配任意不是空白符的字符,与”[^\f\n\r\t\v]”等效;
- “\d”:匹配数字,任意一个数字,0~9中的任意一个,等效于”[0-9]”;
- “\D”:匹配任意非数字的字符,等效于”[^0-9]”;
- “\b”: 匹配一个字边界,即字与空格间的位置,也就是单词和空格之间的位置,不匹配任何字符,如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er";
- “\B”: 非字边界匹配,"er\B"匹配"verb"中的"er",但不匹配"never"中的"er";
- “\f”:匹配一个换页符,等价于”\x0c”和”\cL”;
- “\n”:匹配一个换行符,等价于”\x0a”和”\cJ”;
- “\r”:匹配一个回车符,等价于”\x0d”和”\cM”;
- “\t”:匹配一个制表符,等价于”\x09”和”\cI”;
- “\v”:匹配一个垂直制表符,等价于”\x0b”和”\cK”;
- “\cx”:匹配”x”指示的控制字符,如,\cM匹配Control-M或回车符,”x”的值必须在”A-Z”或”a-z”之间,如果不是这样,则假定c就是"c"字符本身;
- “{n}”:”n”是非负整数,正好匹配n次,如,"o{2}"与"Bob"中的"o"不匹配,但与"food"中的两个"o"匹配;
- “{n,}”:”n”是非负整数,至少匹配n次,如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有”o”,"o{1,}"等效于"o+","o{0,}"等效于"o*";
- “{n,m}”:”n”和”m”是非负整数,其中n<=m,匹配至少n次,至多m次,如,"o{1,3}"匹配"fooooood"中的头三个o,'o{0,1}'等效于'o?',注意,不能将空格插入逗号和数字之间;如”ba{1,3}”可以匹配”ba”或”baa”或”baaa”;
- “x|y”:匹配”x”或”y”,如,”z|food”匹配"z"或"food";”(z|f)ood”匹配"zood"或"food";
- “[xyz]”:字符集,匹配包含的任一字符,如,"[abc]"匹配"plain"中的"a";
- “[^xyz]”:反向字符集,匹配未包含的任何字符,匹配除了”xyz”以外的任意字符,如,"[^abc]"匹配"plain"中的"p";
- “[a-z]”:字符范围,匹配指定范围内的任何字符,如,"[a-z]"匹配"a"到"z"范围内的任何小写字母;
- “[^a-z]”:反向范围字符,匹配不在指定的范围内的任何字符,如,"[^a-z]"匹配任何不在"a"到"z"范围内的任何字符;
- “( )”:将”(“和”)”之间的表达式定义为”组”group,并且将匹配这个表达式的字符保存到一个临时区域,一个正则表达式中最多可以保存9个,它们可以用”\1”到”\9”的符号来引用;
- “(pattern)”:匹配pattern并捕获该匹配的子表达式,可以使用$0…$9属性从结果”匹配”集合中检索捕获的匹配;
- “(?:pattern)”:匹配pattern但不捕获该匹配的子表达式,即它是一个非捕获匹配,不存储供以后使用的匹配,这对于用”or”字符” (|)”组合模式部件的情况很有用, 如,”industr(?:y|ies)”是比”industry|industries”更简略的表达式;
- “(?=pattern)”: 非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始;
- “(?!pattern)”: 非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows";
要匹配某些特殊字符,需在此特殊字符前面加上”\”,如要匹配字符”^”、”$”、”()”、”[]”、”{}”、”.”、”?”、”+”、”*”、”|”,需使用” \^”、” \$”、” \ (“、”\)”、” \ [“、”\]”、” \{“、”\}”、” \.”、” \?”、” \+”、” \*”、” \|”。
在C++/C++11中,GCC版本是4.9.0及以上,VS版本为VS2013及以上时,会有regex头文件,此头文件中会有regex_match、regex_search、regex_replace等函数可供调用,以下是测试代码:
#include "regex.hpp"
#include <regex>
#include <string>
#include <vector>
#include <iostream>
int test_regex_match()
{
std::string pattern{ "\\d{3}-\\d{8}|\\d{4}-\\d{7}" }; // fixed telephone
std::regex re(pattern);
std::vector<std::string> str{ "010-12345678", "0319-9876543", "021-123456789"};
/* std::regex_match:
判断一个正则表达式(参数re)是否匹配整个字符序列str,它主要用于验证文本
注意,这个正则表达式必须匹配被分析串的全部,否则返回false;如果整个序列被成功匹配,返回true
*/
for (auto tmp : str) {
bool ret = std::regex_match(tmp, re);
if (ret) fprintf(stderr, "%s, can match\n", tmp.c_str());
else fprintf(stderr, "%s, can not match\n", tmp.c_str());
}
return 0;
}
int test_regex_search()
{
std::string pattern{ "http|hppts://\\w*$" }; // url
std::regex re(pattern);
std::vector<std::string> str{ "http://blog.csdn.net/fengbingchun", "https://github.com/fengbingchun",
"abcd://124.456", "abcd https://github.com/fengbingchun 123" };
/* std::regex_search:
类似于regex_match,但它不要求整个字符序列完全匹配
可以用regex_search来查找输入中的一个子序列,该子序列匹配正则表达式re
*/
for (auto tmp : str) {
bool ret = std::regex_search(tmp, re);
if (ret) fprintf(stderr, "%s, can search\n", tmp.c_str());
else fprintf(stderr, "%s, can not search\n", tmp.c_str());
}
return 0;
}
int test_regex_search2()
{
std::string pattern{ "[a-zA-z]+://[^\\s]*" }; // url
std::regex re(pattern);
std::string str{ "my csdn blog addr is: http://blog.csdn.net/fengbingchun , my github addr is: https://github.com/fengbingchun " };
std::smatch results;
while (std::regex_search(str, results, re)) {
for (auto x : results)
std::cout << x << " ";
std::cout << std::endl;
str = results.suffix().str();
}
return 0;
}
int test_regex_replace()
{
std::string pattern{ "\\d{18}|\\d{17}X" }; // id card
std::regex re(pattern);
std::vector<std::string> str{ "123456789012345678", "abcd123456789012345678efgh",
"abcdefbg", "12345678901234567X" };
std::string fmt{ "********" };
/* std::regex_replace:
在整个字符序列中查找正则表达式re的所有匹配
这个算法每次成功匹配后,就根据参数fmt对匹配字符串进行替换
*/
for (auto tmp : str) {
std::string ret = std::regex_replace(tmp, re, fmt);
fprintf(stderr, "src: %s, dst: %s\n", tmp.c_str(), ret.c_str());
}
return 0;
}
int test_regex_replace2()
{
// reference: http://www.cplusplus.com/reference/regex/regex_replace/
std::string s("there is a subsequence in the string\n");
std::regex e("\\b(sub)([^ ]*)"); // matches words beginning by "sub"
// using string/c-string (3) version:
std::cout << std::regex_replace(s, e, "sub-$2");
// using range/c-string (6) version:
std::string result;
std::regex_replace(std::back_inserter(result), s.begin(), s.end(), e, "$2");
std::cout << result;
// with flags:
std::cout << std::regex_replace(s, e, "$1 and $2", std::regex_constants::format_no_copy);
std::cout << std::endl;
return 0;
}
更多推荐
所有评论(0)