不会正则表达式?看这篇就够了

正则表达式在几乎所有语言中都可以使用,无论是前端的JavaScript、还是后端的Java、c#。他们都提供相应的接口/函数支持正则表达式。

很神奇的是:无论你大学选择哪一门计算机语言,都没有关于正则表达式的课程给你修,在你学会正则之前,你只能看着那些正则大师们,写了一串外星文似的字符串,替代了你用一大篇幅的if else代码来做一些数据校验。

既然喜欢,那就动手学呗,可当你百度出一一堆相关资料时,你发现无一不例外的枯燥至极,难以学习。

本文旨在用最通俗的语言讲述最枯燥的基本知识!

# 正则基础知识点

1、元字符

万物皆有缘,正则也是如此,元字符是构造正则表达式的一种基本元素。

我们先来记几个常用的元字符:

元字符说明.匹配除换行符以外的任意字符w匹配字母或数字或下划线或汉字s匹配任意的空白符d匹配数字匹配单词的开始或结束^匹配字符串的开始$匹配字符串的结束

有了元字符之后,我们就可以利用这些元字符来写一些简单的正则表达式了,

比如:

匹配有abc开头的字符串:abc或者^abc

匹配8位数字的QQ号码:^dddddddd$

匹配1开头11位数字的手机号码:^1dddddddddd$

2、重复限定符

有了元字符就可以写不少的正则表达式了,但细心的你们可能会发现:别人写的正则简洁明了,而不理君写的正则一堆乱七八糟而且重复的元字符组成的。正则没提供办法处理这些重复的元字符吗?

答案是有的!

为了处理这些重复问题,正则表达式中一些重复限定符,把重复部分用合适的限定符替代,下面我们来看一些限定符:

语法说明*重复零次或更多次+重复一次或更多次?重复零次或一次{n}重复n次{n,}重复n次或更多次{n,m}重复n到m次

有了这些限定符之后,我们就可以对之前的正则表达式进行改造了,比如:

匹配8位数字的QQ号码:^d{8}$

匹配1开头11位数字的手机号码:^1d{10}$

匹配银行卡号是14~18位的数字:^d{14,18}$

匹配以a开头的,0个或多个b结尾的字符串^ab*$

3、分组

从上面的例子(4)中看到,限定符是作用在与他左边最近的一个字符,那么问题来了,如果我想要ab同时被限定那怎么办呢?

正则表达式中用小括号()来做分组,也就是括号中的内容作为一个整体。

因此当我们要匹配多个ab时,我们可以这样。

如匹配字符串中包含0到多个ab开头:^(ab)*

4、转义

我们看到正则表达式用小括号来做分组,那么问题来了:

如果要匹配的字符串中本身就包含小括号,那是不是冲突?应该怎么办?

针对这种情况,正则提供了转义的方式,也就是要把这些元字符、限定符或者关键字转义成普通的字符,做法很简答,就是在要转义的字符前面加个斜杠,也就是即可。

如要匹配以(ab)开头:^((ab))*

5、条件或

回到我们刚才的手机号匹配,我们都知道:国内号码都来自三大网,它们都有属于自己的号段,比如联通有130/131/132/155/156/185/186/145/176等号段,假如让我们匹配一个联通的号码,那按照我们目前所学到的正则,应该无从下手的,因为这里包含了一些并列的条件,也就是“或”,那么在正则中是如何表示“或”的呢?

正则用符号 | 来表示或,也叫做分支条件,当满足正则里的分支条件的任何一种条件时,都会当成是匹配成功。

那么我们就可以用“或”条件来处理这个问题:^(130|131|132|155|156|185|186|145|176)d{8}$

6、区间

看到上面的例子,是不是看到有什么规律?是不是还有一种想要简化的冲动?

实际是有的

正则提供一个元字符中括号 [] 来表示区间条件。

  • 限定0到9 可以写成[0-9]
  • 限定A-Z 写成[A-Z]
  • 限定某些数字 [165]

那上面的正则我们还改成这样:

^((13[0-2])|(15[56])|(18[5-6])|145|176)d{8}$

好了,正则表达式的基本用法就讲到这里了,其实它还有非常多的知识点以及元字符,我们在此只列举了部分元字符和语法来讲,旨在给那些不懂正则或者想学正则但有看不下去文档的人做一个快速入门级的教程,看完本教程,即使你不能写出高大上的正则,至少也能写一些简单的正则或者看得懂别人写的正则了。

# 正则进阶知识点

1、零宽断言

无论是零宽还是断言,听起来都古古怪怪的,

那先解释一下这两个词。

断言:俗话的断言就是“我断定什么什么”,而正则中的断言,就是说正则可以指明在指定的内容的前面或后面会出现满足指定规则的内容,意思正则也可以像人类那样断定什么什么,比如\”ss1aa2bb3\”,正则可以用断言找出aa2前面有bb3,也可以找出aa2后面有ss1.

零宽:就是没有宽度,在正则中,断言只是匹配位置,不占字符,也就是说,匹配结果里是不会返回断言本身。

意思是讲明白了,那他有什么用呢?

我们来举个栗子:假设我们要用爬虫抓取csdn里的文章阅读量。通过查看源代码可以看到文章阅读量这个内容是这样的结构

\”<span class=\”read-count\”>阅读数:641</span>\”

其中也就‘641’这个是变量,也就是说不同文章不同的值,当我们拿到这个字符串时,需要获得这里边的‘641’有很多种办法,但如果正则应该怎么匹配呢?

下面先来讲几种类型的断言:

正向先行断言(正前瞻)

语法:(?=pattern)

作用:匹配pattern表达式的前面内容,不返回本身。

这样子说,还是一脸懵逼,好吧,回归刚才那个栗子,要取到阅读量,在正则表达式中就意味着要能匹配到‘’前面的数字内容。

按照上所说的正向先行断言可以匹配表达式前面的内容,那意思就是:(?=) 就可以匹配到前面的内容了。

匹配什么内容呢?如果要所有内容那就是:

可是老哥我们要的只是前面的数字呀,那也简单咯,匹配数字 d,那可以改成:

大功告成!

正向后行断言(正后顾)

语法:(?<=pattern)

作用:匹配pattern表达式的后面的内容,不返回本身。

有先行就有后行,先行是匹配前面的内容,那后行就是匹配后面的内容啦。

上面的栗子,我们也可以用后行断言来处理。

就这么简单。

负向先行断言(负前瞻)

语法:(?!pattern)

作用:匹配非pattern表达式的前面内容,不返回本身。

有正向也有负向,负向在这里其实就是非的意思。

举个栗子:比如有一句 “我爱祖国,我是祖国的花朵”

现在要找到不是\’的花朵\’前面的祖国

用正则就可以这样写:祖国(?!的花朵)。

负向后行断言(负后顾)

语法:(?<!pattern)

作用:匹配非pattern表达式的后面内容,不返回本身。

2、捕获和非捕获

单纯说到捕获,他的意思是匹配表达式,但捕获通常和分组联系在一起,也就是“捕获组”。

捕获组:匹配子表达式的内容,把匹配结果保存到内存中中数字编号或显示命名的组里,以深度优先进行编号,之后可以通过序号或名称来使用这些匹配结果。

而根据命名方式的不同,又可以分为两种组。

数字编号捕获组

语法:(exp)

解释:从表达式左侧开始,每出现一个左括号和它对应的右括号之间的内容为一个分组,在分组中,第0组为整个表达式,第一组开始为分组。

比如固定电话的:020-85653333

他的正则表达式为:(0d{2})-(d{8})

按照左括号的顺序,这个表达式有如下分组:

序号编号分组内容00(0d{2})-(d{8})020-8565333311(0d{2})02022(d{8})85653333

我们用Java来验证一下:

输出结果:

可见,分组个数是2,但是因为第0个为整个表达式本身,因此也一起输出了。

命名编号捕获组

语法:(?exp)

解释:分组的命名由表达式中的name指定

比如区号也可以这样写:(?d{2})-(?d{8})

按照左括号的顺序,这个表达式有如下分组:序号名称分组内容00(0d{2})-(d{8})020-856533331quhao(0d{2})0202haoma(d{8})85653333

用代码来验证一下:

输出结果:

非捕获组

语法:(?:exp)

解释:和捕获组刚好相反,它用来标识那些不需要捕获的分组,说的通俗一点,就是你可以根据需要去保存你的分组。

比如上面的正则表达式,程序不需要用到第一个分组,那就可以这样写:(?:d{2})-(d{8})

序号编号分组内容00(0d{2})-(d{8})020-8565333311(d{8})85653333

验证一下:

输出结果:

3、反向引用

上面讲到捕获,我们知道:捕获会返回一个捕获组,这个分组是保存在内存中,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用。

根据捕获组的命名规则,反向引用可分为:

数字编号组反向引用:k或 umber

命名编号组反向引用:k或者\’name\’

好了 讲完了,懂吗?不懂!!!

可能连前面讲的捕获有什么用都还不懂吧?

其实只是看完捕获不懂不会用是很正常的!

因为捕获组通常是和反向引用一起使用的。

上面说到捕获组是匹配子表达式的内容按序号或者命名保存起来以便使用。

注意两个字眼:“内容” 和 “使用”。

这里所说的“内容”,是匹配结果,而不是子表达式本身,强调这个有什么用?嗯,先记住。

那这里所说的“使用”是怎样使用呢?

因为它的作用主要是用来查找一些重复的内容或者做替换指定字符。

还是举栗子吧。

比如要查找一串字母\”aabbbbgbddesddfiid\”里成对的字母

如果按照我们之前学到的正则,什么区间啊限定啊断言啊可能是办不到的,

现在我们先用程序思维理一下思路:

1)匹配到一个字母

2)匹配第下一个字母,检查是否和上一个字母是否一样

3)如果一样,则匹配成功,否则失败

这里的思路2中匹配下一个字母时,需要用到上一个字母,那怎么记住上一个字母呢???

这下子捕获就有用处啦,我们可以利用捕获把上一个匹配成功的内容用来作为本次匹配的条件

好了,有思路就要实践

首先匹配一个字母:w

我们需要做成分组才能捕获,因此写成这样:(w)

那这个表达式就有一个捕获组:(w)

然后我们要用这个捕获组作为条件,那就可以:(w)

这样就大功告成了

可能有人不明白了,是什么意思呢?

还记得捕获组有两种命名方式吗,一种是是根据捕获分组顺序命名,一种是自定义命名来作为捕获组的命名

在默认情况下都是以数字来命名,而且数字命名的顺序是从1开始的

因此要引用第一个捕获组,根据反向引用的数字命名规则 就需要 k<1>或者

当然,通常都是是后者。

我们来测试一下:

输出结果:

嗯,这就是我们想要的了。

在举个替换的例子,假如想要把字符串中abc换成a。

输出结果:

4、贪婪和非贪婪

贪婪

我们都知道,贪婪就是不满足,尽可能多的要。

在正则中,贪婪也是差不多的意思:

贪婪匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这匹配方式叫做贪婪匹配。

特性:一次性读入整个字符串进行匹配,每当不匹配就舍弃最右边一个字符,继续匹配,依次匹配和舍弃(这种匹配-舍弃的方式也叫做回溯),直到匹配成功或者把整个字符串舍弃完为止,因此它是一种最大化的数据返回,能多不会少。

前面我们讲过重复限定符,其实这些限定符就是贪婪量词,比如表达式:d{3,6}。

用来匹配3到6位数字,在这种情况下,它是一种贪婪模式的匹配,也就是假如字符串里有6个个数字可以匹配,那它就是全部匹配到。

如下面的代码。

输出结果:

由结果可见:本来字符串中的“61762828”这一段,其实只需要出现3个(617)就已经匹配成功了的,但是他并不满足,而是匹配到了最大能匹配的字符,也就是6个。

一个量词就如此贪婪了,

那有人会问,如果多个贪婪量词凑在一起,那他们是如何支配自己的匹配权的呢?

是这样的,多个贪婪在一起时,如果字符串能满足他们各自最大程度的匹配时,就互不干扰,但如果不能满足时,会根据深度优先原则,也就是从左到右的每一个贪婪量词,优先最大数量的满足,剩余再分配下一个量词匹配。

输出结果:

“617628” 是前面的d{1,2}匹配出了61,后面的匹配出了7628

\”2991\” 是前面的d{1,2}匹配出了29 ,后面的匹配出了91

\”87321\”是前面的d{1,2}匹配出了87,后面的匹配出了321

懒惰(非贪婪)

懒惰匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能少的字符,这匹配方式叫做懒惰匹配。

特性:从左到右,从字符串的最左边开始匹配,每次试图不读入字符匹配,匹配成功,则完成匹配,否则读入一个字符再匹配,依此循环(读入字符、匹配)直到匹配成功或者把字符串的字符匹配完为止。

懒惰量词是在贪婪量词后面加个“?”

代码说明*?重复任意次,但尽可能少重复+?重复1次或更多次,但尽可能少重复??重复0次或1次,但尽可能少重复{n,m}?重复n到m次,但尽可能少重复{n,}?重复n次以上,但尽可能少重复。

输出结果:

“61762” 是左边的懒惰匹配出6,右边的贪婪匹配出1762

\”2991\” 是左边的懒惰匹配出2,右边的贪婪匹配出991

\”87321\” 左边的懒惰匹配出8,右边的贪婪匹配出7321

5、反义

前面说到元字符的都是要匹配什么什么,当然如果你想反着来,不想匹配某些字符,正则也提供了一些常用的反义元字符。

元字符解释W匹配任意不是字母,数字,下划线,汉字的字符S匹配任意不是空白符的字符D匹配任意非数字的字符B匹配不是单词开头或结束的位置[x]匹配除了x以外的任意字符[aeiou]匹配除了aeiou这几个字母以外的任意字符

正则进阶知识就讲到这里,正则是一门博大精深的语言,其实学会它的一些语法和知识点还算不太难,但想要做到真正学以致用能写出非常6的正则,还有很远的距离,只有真正对它感兴趣的,并且经常研究和使用它,才会渐渐的理解它的博大精深之处,我就带你们走到这,剩下的,靠自己啦。

在 JavaScript 中替换所有指定字符 3 种方法

在 JS 没有提供一种简便的方法来替换所有指定字符。 在 Java 中有一个 replaceAll() ,replaceAll(String regex, String replacement))方法使用给定的参数 replacement 替换字符串所有匹配给定的正则表达式的子字符串。

在 JS 最新的提案 String.prototype.replaceAll() 中,它将replaceAll()方法用于字符串。

在该提案还没出来之前,我们来看看在 JS 中有哪些方法可以实现 reaplceAll 的效果。

这种方法,主要包含二个阶段:

  1. 使用 split 方法,根据指定的字符将字符串分成多个部分。
  2. 然后使用 join 方法将分割的多个部分连接在一直,并在它们之间插入指定的字符。

例如,我们将字符串\’1+2+3\’中的+替换为-。首先,通过split方法根据 +分割符将\’1+2+3\’分开,得到[\’1\’,\’2\’,\’3\’]。然后通过 join 方法并指定连接字条-,得到结果\’1-2-3\’。示例如下:

\’duck duck go\’.split(\’duck\’)将字符串分割成几段:[\’\’, \’ \’, \’ go\’]。[\’\’, \’ \’, \’ go\’].join(\’goose\’) 在元素之间插入\’goose\’并连接起来,得到\’goose goose go\’。

最后我们把这种方式封装成一个帮助函数 replaceAll:

这种方法需要将字符串转换为数组,然后再转换回字符串。这是一种变通方法,但不是一个好的解决方案。

String.prototype。replace(regExp, replaceWith)搜索正则表达式regExp出现的情况,然后使用replaceWith字符串替换所有匹配项。

必须启用正则表达式上的全局标志,才能使replace()方法替换模式出现的所有内容,我们可以这样做:

  1. 在正则表达式文字中,将g附加到标志部分:/search/g。
  2. 对于正则表达式构造函数,使用 flags 参数:new RegExp(\’search\’, \’g\’)

我们把所有的duck换成goose:

正则表达式文字/duck/g与\’duck\’字符串匹配,并且启用了全局模式。

\’duck duck go\’.replace(/duck/g, \’goose\’)用\’goose\’替换所有匹配/duck/g字符串。

通过向正则表达式添加i标志,可以忽略大小写:

再次查看正则表达式:/duck/gi。 正则表达式启用了不区分大小写的搜索:i和全局标志g。 /duck/gi匹配\’duck\’,以及\’DUCK\’,\’Duck\’等。

\’DUCK duck go\’.replace(/duck/gi, \’goose\’)以不区分大小写的方式用\’goose\’替换了/duck/gi`所匹配到的结果。

虽然正则表达式替换了所有出现的字符串,但在我看来,这种方法过于繁琐。

当在运行时确定搜索字符串时,使用正则表达式方法不方便。 从字符串创建正则表达式时,必须转义字符-[] / {}()* +? 。 \\ ^ $ |,示例如下:

上面的代码片段尝试将搜索字符串\’+\’转换为正则表达式。 但是\’+\’是无效的正则表达式,因此会引发SyntaxError: Invalid regular expression: /+/异常。

如果replace(search, replaceWith)的第一个参数是字符串,那么该方法只替换search的第一个结果。

\’duck duck go\’.replace(\’duck\’,\’goose\’)仅将\’duck\’的首次出现替换为\’goose\’。

最后,新的提案String.prototype.replaceAll()(在第3阶段)将replaceAll()方法引入到 JavaScript 的字符串中。

replaceAll(search, replaceWith)字符串方法用replaceWith替换所有的search字符串,没有任何变通方法。

我们把所有的duck换成goose:

\’duck duck go\’.replaceAll(\’duck\’, \’goose\’)将所有出现的\’duck\’字符串替换为\’goose\’,这是简单明了的解决方案。

字符串方法replaceAll(search, replaceWith)和replace(search, replaceWith)的行为方式是一样的,除了两件事:

  1. 如果search参数是一个字符串,那么replaceAll()用replaceWith替换所有出现的search,而replace()只替换第一次出现的search。

2.如果search参数是一个非全局正则表达式,那么replaceAll()将抛出一个TypeError 异常。

替换所有出现的字符串应该很容易。 但是,JavaScript 很久一段时间没有提供这种方法。

一种方法是通过搜索字符串将字符串拆分为多个块,将字符串重新连接,然后在块之间放置替换字符串:string.split(search).join(replaceWith)。 这种方法有效,但是很麻烦。

另一种方法是将String.prototype.replace()与启用了全局搜索的正则表达式一起使用:string.replace(/SEARCH/g, replaceWith)。

不幸的是,由于必须转义正则表达式的特殊字符,因此在运行时无法轻松地从字符串生成正则表达式。 处理正则表达式以简单地替换字符串的方法非常麻烦。

最后,String.prototype.replaceAll()方法可以轻松地直接替换所有出现的字符串:string.replaceAll(search, replaceWith)。 这是第3阶段的提案,但希望很快就会纳入新的JavaScript标准。

我的建议是使用replaceAll()来替换字符串。但你需要一个polyfill来使用这个方法。

你还知道其他替换所有字符串出现的方法吗?欢迎留言讨论。

作者: Dmitri Pavlutin 译者:前端小智 来源:dmitripavlutin

原文:https://dmitripavlutin.com/replace-all-string-occurrences-javascript/

C/C++知识分享:C语则表达式

C语言的正则表达式规则,特此跟大家分享。

C语言使用正则表达式的方法很简单,只需要包含正则表达式头文件即可:

#include<regex.h>

相关函数:

regcomp():编译正则表达式

regexec():进行模式匹配

regfree():当不再需要编译的正则表达式时要将其释放

使用时依次调用这些函数即可。其中特别需要提出是regexec()函数的最后一个参数,有如下四种选择:

REG_EXTENDED以功能更加强大的扩展正则表达式的方式进行匹配;

REG_ICASE匹配字母时忽略大小写;

REG_NOSUB不用存储匹配后的结果;

REG_NEWLINE识别换行符号。

一般,我们选择第一个功能更强大的扩展表达式即可。

下面是一个封装这些函数的例子(供参考):

举例:

字符串:Hi, 2016!

表达式:\\\\w\\\\w\\\\W\\\\s\\\\S\\\\d.\\\\D

注意:因为C语言解析字符串时也会区分转义字符\’\\\’,所以我们的正则表达式需要在每个转移字符前再加一个\’\\\’才可以,像\”\\\\w\”

2.字符数量匹配

举例:

字符串:Hi, 20160422!

表达式:\\\\w{2},\\\\s2?0+1*\\\\d{1,5}!

3.字符位置匹配

举例:

字符串:Hi, 20160422!

表达式:^Hi,\\\\s\\\\d{8}!$

4.选择匹配

举例:

字符串:www.123123123e5rt6yDF.com

表达式:\\\\w{3}\\\\.(123){3}[5-6e-y]{6}[^5-6e-y]{2}\\\\s(com|COM)$

本文只介绍了正则表达式的一部分匹配规则,大多是常用的,还有些更高级的用法等以后用到了再更新。另外,文中匹配时举的例子都是为了便于理解而举的,实际使用时可以更精简。

另外的话,作为一名程序员,如果你想更好的提升你的编程能力,好好学习C/C++编程知识,以后努力成为高薪软件开发工程师的话!

编程学习书籍:

编程学习视频:

分享(源码、项目实战视频、项目笔记,基础入门教程)

欢迎转行和学习编程的伙伴,利用更多的资料学习成长比自己琢磨更快哦!

对于C/C++感兴趣可以关注小编在后台私信我:【编程交流】一起来学习哦!可以领取一些C/C++的项目学习视频资料哦!已经设置好了关键词自动回复,自动领取就好了!

本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com

点赞 0
收藏 0

文章为作者独立观点不代本网立场,未经允许不得转载。