30 分钟轻松搞定正则表达式基础
提起正则表达式,可能大家的第一印象是:既强大好用但也晦涩难懂。正则表达式在文本处理中相当重要,各大编程语言中均有支持(跟 Linux 三剑客结合更是神兵利器)。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。(来自百度百科)
个人理解如下:某个大佬为了从字符串中匹配或找出符合特定规律(如手机号、身份证号)的子字符串,先定义了一些通用符号来表示字符串中各个类型的元素(如数字用 \\d 表示),再将它们组合起来得到了一个模板(如:\\d\\d模板就是指代两个数字),拿这个模板去字符串中比对,找出符合该模板的子字符串。
由几个例子去进一步理解,比如现在有一个字符串为:1.test是一个正则表达式,它的匹配情况:I am a tester, and My job is to test some software. 它既可以匹配tester中的test,又可以匹配第二个test。正则表达式中的test就代表test这个单词本身。
2.\\btest\\b是一个正则表达式,它的匹配情况:I am a tester, and My job is to test some software. 它只能匹配第二个test。因为\\b具有特殊意义,指代的是单词的开头或结尾。故tester中的test就不符合该模式。
3.test\\w*是一个正则表达式,它的匹配情况:I am a tester, and My job is to test some software. 它匹配出了tester,也匹配出了第二个test。其中\\w的意思是匹配字母数字下划线,
不同,+的意思是1个或多个,所以该正则表达式匹配的是开头为test,后续跟着1个及以上字母数字下划线的字符串。
通过上述几个例子,应该可以看出正则表达式的工作方式,正则表达式由一般字符和元字符组成,一般字符就是例子中的‘test’,其指代的意思就是字符本身,t匹配的就是字母t;元字符就是例子中有特殊含义的字符,如\\w, \\b, *, +等。后续介绍一些基础的元字符。元字符有很多,不同元字符有不同的作用,大致可以分为如下几类。有些元字符专门用来指代字符串中的元素类型,常用的如下:
通过上述表格中的数据可以发现,\\w,\\d,\\s都有一个与之相反的元字符(将对应字母大写后就是了)。\\w匹配所有字母数字下划线,那么\\W就是匹配所有不是字母数字下划线的字符。只要记住其中3个,另外3个就很好记了。乍一看这几个元字符挺简单的,但是经常不用的话保不准会忘记,此处分享一下我的记忆方法。我把这几个元字符都当作是某一个单词的缩写(虽然可能就是某个单词的缩写,但是没有找到准确的资料去印证):
- \\s是space(空间)的缩写
- \\d是digit(数字)的缩写
- \\w是word(可以理解成不是传统意义上的单词而是代码中的变量名,变量名可包含的元素就是字母数字下划线)的缩写好了,看到此处你应该已经熟记了6个元字符了。接下来,\\n和\\t平时会经常用到,这个肯定比较熟了,最后一个元字符‘.’可以理解它匹配一行中的所有元素,因为遇到换行符后就不再进行匹配了(万事万物源于一点)。有些元字符用于表示某种元素的数量,如\\d表示一个数字,当你想表示6位数字怎么办?当然可以\\d\\d\\d\\d\\d\\d ,但确实太麻烦了,为了简便就需要一些表示数量的元字符,上述可以写成\\d{6},元字符详情如下:这几个元字符还算比较好记。 表示1, +等有特殊意义的元字符,假如你想匹配5个{5}吗?肯定不是,这样写是语法错误,应该使用\\将其转义:*{5}。这样一来*的特殊意义就被\\给取消了,想要匹配\\的话,也是一样,再用一个\\把特殊意义取消掉就好了。前面列出了部分用于表示意义的元字符,但是可能这几个元字符覆盖的都太广泛了,想要具体的匹配某一类字符。比如就是想匹配abcd这四个字符中的某一个,正则表达式当然也是支持的。这时候就需要用到第二种括号,中括号。匹配abcd中的某一个可以写成[abcd]或者[a-d],意思是匹配一个a-d中的任意字符。相反若匹配非abcd的任意字符,可以写成[^abcd],意思是匹配一个不是abcd的字符。括号内也可以写入不同类型的元素,如[a-d1-7@],表示的是匹配一个a-d或1-7或@中的任意字符,[^a-d1-7@]则与之相反讲完中括号后我们可以看一下小括号(),小括号的意思是分组,即小括号内部的所有元字符是一个整体。之前有学过表示数量的元字符,但是那个表示的数量都是针对于一个元字符来说的,比如ab+表示的是匹配一个a后面跟着1个或多个b的子字符串。倘若我们想要匹配的是1个或多个ab(如:abababab),此时分组就派上作用了,可以这么写:(ab)+。此时ab被绑定为一个整体,后面的数量元字符对这个整体起作用。元字符中有一个或运算符,它与大多数编程语言类似都是用 | 来表示。它的作用为:Ab|aB表示的是匹配Ab或者aB。通过这个例子可以很直观的理解该元字符的作用。当然它也经常和分组一起使用:(Ab|aB)+c,该正则匹配开始为1-N个Ab或aB之后是c的子字符串,如:AbaBc, AbAbAbaBc。后向引用的使用是依附于分组的,分组的概念之前讲过了。首先,我们先看一下正则表达式中组号的分配方式,此时先看一个用到分组的正则表达式:(ab)?(c|C)d。这个正则的意思大家现在肯定都清楚了。这个正则表达式里面用到了两个分组分别是(ab)和(c|C)。正则内部会对所有分组进行组号分配,从左向右,第一个分组(ab)的组号是1,第二个分组(c|C)的组号是2。而组号0代表的是整个正则表达式。尝试过python正则的此处应该有印象,匹配对象的group方法传参为0或不传则返回整个正则所匹配的结果,传参为1为第一个分组匹配的结果。了解了组号分配方式后,可以开始解释后向引用了。后向引用就是将前面某个分组已经匹配的数据拿过来用,第一个分组匹配的数据用\\1代替,第二个分组匹配的数据用\\2代替,依次类推。似乎不是特别好理解,直接看例子吧,(ab)?(c|C)d\\2D该正则中\\2表示的是第二个分组匹配到的数据,若第二个分组匹配到了c那么\\2就是c,反之亦然。所以它能匹配到:abcdcD, abCdCD。不能匹配:abcdCD, abCdcD。通过这个例子可以理解它的作用了吧。当然分组除了有自己的组号外,还可以给它自定义组名。不同编程语言中的方式不同,Python中自定义组名的格式为:(?Pexp),Name为你自定义的组名,exp代表任意元字符的组合。后面引用的方法为(?P=name)。所以上面例子可以修改成:(ab)?(?Pc|C)d(?P=CWord)D。上一节简单的讲了一下正则表达式是如何分配组号的,但其实还有几个需要注意的地方。
- 虽然组号是从左向右进行分配,但是扫描两遍,第一遍先分配给未命名的分组,第二遍再分配给命名的分组。所以命名后的分组组号会更大
- 使用(?:exp)可以使一个分组不分配组号,如(?:ab)?(c|C)d\\2D中(ab)就没有分配到组号,而(c|C)组号为1人性是贪婪的,正则表达式与人一样也是贪婪的。一个正则表达式会尽量多的去匹配字符串,如:ab.+c去匹配’abccccc’是会将该字符串全部匹配出来。但有时候我们只想要其匹配’abcc’,此时怎么办呢?需要给正则表达式中表示数量的元字符加一个?变成ab.+?c。此时该正则表达式就变懒了,不会再去匹配那么多,匹配到‘abcc’就完事了。这两个个概念有些不太好理解。正如前面所说这两个也是表示位置的元字符。从字面意思上理解,零宽代表其没有宽度,即如之前介绍表示位置的元字符中提到的一样,不会实际占用字符。断言是什么?是assert,是用来判断条件是True还是False。理解完这两个词语的意思后,零宽断言的概念应该也就能理解了。那么负向无非就是它的反义词。上面的表格主要看第一列它是什么格式就好,反正后面的名称和说明也很难看懂。接下来我来用自己的理解通俗的解释一下这些概念。首先字符串中可以有四种方式确认某个子字符串的位置,如字符串‘BACAB’中有两个A,A前面是B、A前面不是B、A后面是C、A后面不是C。上述四种条件都能够匹配出唯一一个子字符串A。这个例子大概理解的话就可以往后看了。
- (?=exp)中exp指代的是任意元字符的组合,结合具体的例子来理解该元字符的用法,一个正则表达式为A(?=C),它代表的情况就是A后面是C的情况。所以匹配出了第一个A,由于该元字符是零宽所以它只能匹配出A而不是AC。
- (?<=exp)与上面用法相反,一个正则表达式为(?<=B)A,它代表的情况就是A前面是B的情况。所以匹配出了第一个A。如果改成(?<=C)A,则能匹配出第二个A。
- (?!exp)的例子为:A(?!C),它代表的情况为A后面不是C,所以匹配出第二个A。
- (?<!exp)的例子为:(?<!B)A,它代表的情况为A前面不是B,所以匹配出第二个A。通过上面四个例子的介绍,应该对于这两个概念、四个元字符有了了解。理解是重点,记下来也是重点。本人是这样记下来的,四个元字符的基本格式都是(?),只不过问号后面的不一样。分下面两种情况:
- XXX前/后是XXX的话就写一个=,XXX前/后不是XXX的话就写一个!。这个和日常用的=和!=差不多。
- 如果表示的意思是前的话,这个元字符就需要出现在前面且要加一个类似于向前指的箭头<。如果表示的意思是后的话,就什么都不需要加。通过上面两个情况的归纳,是不是这四个元字符就都记下来了?到目前为止,正则表达式的基本内容都介绍完了。但是文中用的例子都比较简单,只能帮助你理解概念。如果感兴趣或者工作中能用到的话,还需要后续勤加练习。你以为文章到总结就结束了?So naive,我再来列举一个测试日常工作中的案例,将理论应用到实践(编程语言选择 Python,因为我目前只会这个)。设想这么一个场景,在测试过程中需要获取某个时间段内某个程序的运行情况,从而分析出该程序的稳定性或使用频率等指标,该程序的日志记录完备,日志格式固定且已知。这时候最佳的办法就是从该程序日志中进行相关信息的获取。假如该日志内容格式大概如下(注:该日志样例不是实际项目中的日志文件,为个人举例):从这个日志中可以看到访问成功的IP及其认证账号、访问失败的IP、程序的错误信息。那么我们怎么把这些数据给抓取出来呢?抓取的方法肯定有很多,如果此时你第一时间想到了正则表达式,那么恭喜你,通过阅读前面的文章,正则已经在你心中留下了痕迹,或者它本来就留有痕迹。我们先来分析一下第一条日志,其余的与此类似,有用的信息可以分成如下几个片段:
- 时间字符串:2020-02-17 11:04:34
- 日志级别:INFO
- IP:182.168.3.111
- 认证邮箱:110232123@qq.com
- 状态码:1
- 客户端获取到的数据大小:12931KB上面几个片段对应的正则为:
- 时间字符串:\\d{4}-\\d{2}-\\d{2}\\s*\\d{2}:\\d{2}:\\d{2}
- 日志级别:[INFO]
- IP:(\\d{1,3}.){3}\\d{1,3}
- 认证邮箱:\\w+@\\w+.\\w+
- 状态码:\\d+
- 客户端获取到的数据大小:\\d+KB上述中某几个正则其实并不严谨,比如IP对应的正则还可以匹配出999.999.999.999。严谨的正则表达式是((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)。由于该正则太长,加之此处重点在于如何应用,故暂用其宽松版的正则表达式。知道了各个字段的正则后,我们可以将它们各自写成一个分组,分组之间填充上其余元字符,把匹配整行日志的正则表达式写出来,如下:现在我们通过这个正则表达式可以抓取出日志文件中这种格式的日志字符串,再根据组号就可以拿出来对应的数据了。不过根据组号取数据可能会有些含糊不清,或许我们可以给每个分组进行命名(使用python支持的方式),形成如下正则表达式:好了现在我们可以很清楚的看到,表示时间的分组命名为Time,依次类推。接下来,我们可以使用上述正则表达式去抓取一行日志,再通过分组的名称拿到对于的字符串数据了。具体的代码可以参考下面的样例:代码中实现了一个函数reg_deal,后面代码都是对于这个函数的实际应用,该函数入参为:正则表达式组成的列表、待匹配的字符串、特殊函数组成的字典。其先循环将字符串与列表中各个正则表达式进行匹配,匹配成功后得到一个匹配对象,调用该匹配对象的groupdict函数可以返回一个结果字典,该结果字典的键为分组的名称,值为分组匹配到的值。针对这一结果字典再进行一步特殊函数处理,如上述中的status字段日志中是码值,但输出结果需要是具体的汉字。故对其进行了一步码值转换操作,对与数据大小将KB转化成了MB。若使用该函数,需自己将正则表达式写出来并对正则表达式中的分组进行命名,若有些分组数据需要特殊处理,则维护一个特殊函数字典,键为分组名,值为函数(匿名函数或者是函数名称)。将参数传入后即可获得结果字典或者 None。得到结果字典后具体怎么处理就看你接下来的发挥啦。以上,仅供大家参考,期待多交流指正。
来霍格沃兹测试开发学社,学习更多软件测试与测试开发的进阶技术,知识点涵盖web自动化测试 app自动化测试、接口自动化测试、测试框架、性能测试、安全测试、持续集成/持续交付/DevOps,测试左移、测试右移、精准测试、测试平台开发、测试管理等内容,课程技术涵盖bash、pytest、junit、selenium、appium、postman、requests、httprunner、jmeter、jenkins、docker、k8s、elk、sonarqube、jacoco、jvm-sandbox等相关技术,全面提升测试开发工程师的技术实力。
获取更多内容:https://qrcode.ceba.ceshiren.com/link?name=article&project_id=qrcode&from=toutiao×tamp=1650790316
不会正则表达式?看这篇就够了
正则表达式在几乎所有语言中都可以使用,无论是前端的JavaScript、还是后端的Java、c#。他们都提供相应的接口/函数支持正则表达式。
很神奇的是:无论你大学选择哪一门计算机语言,都没有关于正则表达式的课程给你修,在你学会正则之前,你只能看着那些正则大师们,写了一串外星文似的字符串,替代了你用一大篇幅的if else代码来做一些数据校验。
既然喜欢,那就动手学呗,可当你百度出一一堆相关资料时,你发现无一不例外的枯燥至极,难以学习。
本文旨在用最通俗的语言讲述最枯燥的基本知识!
# 正则基础知识点
1、元字符
万物皆有缘,正则也是如此,元字符是构造正则表达式的一种基本元素。
我们先来记几个常用的元字符:
元字符说明.匹配除换行符以外的任意字符w匹配字母或数字或下划线或汉字s匹配任意的空白符d匹配数字匹配单词的开始或结束^匹配字符串的开始$匹配字符串的结束
有了元字符之后,我们就可以利用这些元字符来写一些简单的正则表达式了,
比如:
匹配有abc开头的字符串:abc或者^abc
匹配8位数字的QQ号码:^dddddddd$
匹配1开头11位数字的手机号码:^1dddddddddd$
2、重复限定符
有了元字符就可以写不少的正则表达式了,但细心的你们可能会发现:别人写的正则简洁明了,而不理君写的正则一堆乱七八糟而且重复的元字符组成的。正则没提供办法处理这些重复的元字符吗?
答案是有的!
为了处理这些重复问题,正则表达式中一些重复限定符,把重复部分用合适的限定符替代,下面我们来看一些限定符:
语法说明*重复零次或更多次+重复一次或更多次?重复零次或一次{n}重复n次{n,}重复n次或更多次{n,m}重复n到m次
有了这些限定符之后,我们就可以对之前的正则表达式进行改造了,比如:
匹配8位数字的QQ号码:^d{8}$
匹配1开头11位数字的手机号码:^1d{10}$
匹配银行卡号是14~18位的数字:^d{14,18}$
匹配以a开头的,0个或多个b结尾的字符串^ab*$
3、分组
从上面的例子(4)中看到,限定符是作用在与他左边最近的一个字符,那么问题来了,如果我想要ab同时被限定那怎么办呢?
正则表达式中用小括号()来做分组,也就是括号中的内容作为一个整体。
因此当我们要匹配多个ab时,我们可以这样。
如匹配字符串中包含0到多个ab开头:^(ab)*
4、转义
我们看到正则表达式用小括号来做分组,那么问题来了:
如果要匹配的字符串中本身就包含小括号,那是不是冲突?应该怎么办?
针对这种情况,正则提供了转义的方式,也就是要把这些元字符、限定符或者关键字转义成普通的字符,做法很简答,就是在要转义的字符前面加个斜杠,也就是即可。
如要匹配以(ab)开头:^((ab))*
5、条件或
回到我们刚才的手机号匹配,我们都知道:国内号码都来自三大网,它们都有属于自己的号段,比如联通有130/131/132/155/156/185/186/145/176等号段,假如让我们匹配一个联通的号码,那按照我们目前所学到的正则,应该无从下手的,因为这里包含了一些并列的条件,也就是“或”,那么在正则中是如何表示“或”的呢?
正则用符号 | 来表示或,也叫做分支条件,当满足正则里的分支条件的任何一种条件时,都会当成是匹配成功。
那么我们就可以用“或”条件来处理这个问题:^(130|131|132|155|156|185|186|145|176)d{8}$
6、区间
看到上面的例子,是不是看到有什么规律?是不是还有一种想要简化的冲动?
实际是有的
正则提供一个元字符中括号 [] 来表示区间条件。
- 限定0到9 可以写成[0-9]
- 限定A-Z 写成[A-Z]
- 限定某些数字 [165]
那上面的正则我们还改成这样:
^((13[0-2])|(15[56])|(18[5-6])|145|176)d{8}$
好了,正则表达式的基本用法就讲到这里了,其实它还有非常多的知识点以及元字符,我们在此只列举了部分元字符和语法来讲,旨在给那些不懂正则或者想学正则但有看不下去文档的人做一个快速入门级的教程,看完本教程,即使你不能写出高大上的正则,至少也能写一些简单的正则或者看得懂别人写的正则了。
# 正则进阶知识点
1、零宽断言
无论是零宽还是断言,听起来都古古怪怪的,
那先解释一下这两个词。
断言:俗话的断言就是“我断定什么什么”,而正则中的断言,就是说正则可以指明在指定的内容的前面或后面会出现满足指定规则的内容,意思正则也可以像人类那样断定什么什么,比如\”ss1aa2bb3\”,正则可以用断言找出aa2前面有bb3,也可以找出aa2后面有ss1.
零宽:就是没有宽度,在正则中,断言只是匹配位置,不占字符,也就是说,匹配结果里是不会返回断言本身。
意思是讲明白了,那他有什么用呢?
我们来举个栗子:假设我们要用爬虫抓取csdn里的文章阅读量。通过查看源代码可以看到文章阅读量这个内容是这样的结构
\”<span class=\”read-count\”>阅读数:641</span>\”
其中也就‘641’这个是变量,也就是说不同文章不同的值,当我们拿到这个字符串时,需要获得这里边的‘641’有很多种办法,但如果正则应该怎么匹配呢?
下面先来讲几种类型的断言:
正向先行断言(正前瞻)
语法:(?=pattern)
作用:匹配pattern表达式的前面内容,不返回本身。
这样子说,还是一脸懵逼,好吧,回归刚才那个栗子,要取到阅读量,在正则表达式中就意味着要能匹配到‘’前面的数字内容。
按照上所说的正向先行断言可以匹配表达式前面的内容,那意思就是:(?=) 就可以匹配到前面的内容了。
匹配什么内容呢?如果要所有内容那就是:
可是老哥我们要的只是前面的数字呀,那也简单咯,匹配数字 d,那可以改成:
大功告成!
正向后行断言(正后顾)
语法:(?<=pattern)
作用:匹配pattern表达式的后面的内容,不返回本身。
有先行就有后行,先行是匹配前面的内容,那后行就是匹配后面的内容啦。
上面的栗子,我们也可以用后行断言来处理。
就这么简单。
负向先行断言(负前瞻)
语法:(?!pattern)
作用:匹配非pattern表达式的前面内容,不返回本身。
有正向也有负向,负向在这里其实就是非的意思。
举个栗子:比如有一句 “我爱祖国,我是祖国的花朵”
现在要找到不是\’的花朵\’前面的祖国
用正则就可以这样写:祖国(?!的花朵)。
负向后行断言(负后顾)
语法:(?<!pattern)
作用:匹配非pattern表达式的后面内容,不返回本身。
2、捕获和非捕获
单纯说到捕获,他的意思是匹配表达式,但捕获通常和分组联系在一起,也就是“捕获组”。
捕获组:匹配子表达式的内容,把匹配结果保存到内存中中数字编号或显示命名的组里,以深度优先进行编号,之后可以通过序号或名称来使用这些匹配结果。
而根据命名方式的不同,又可以分为两种组。
数字编号捕获组
语法:(exp)
解释:从表达式左侧开始,每出现一个左括号和它对应的右括号之间的内容为一个分组,在分组中,第0组为整个表达式,第一组开始为分组。
比如固定电话的:020-85653333
他的正则表达式为:(0d{2})-(d{8})
按照左括号的顺序,这个表达式有如下分组:
序号编号分组内容00(0d{2})-(d{8})020-8565333311(0d{2})02022(d{8})85653333
我们用Java来验证一下:
输出结果:
可见,分组个数是2,但是因为第0个为整个表达式本身,因此也一起输出了。
命名编号捕获组
语法:(?exp)
解释:分组的命名由表达式中的name指定
比如区号也可以这样写:(?d{2})-(?d{8})
按照左括号的顺序,这个表达式有如下分组:序号名称分组内容00(0d{2})-(d{8})020-856533331quhao(0d{2})0202haoma(d{8})85653333
用代码来验证一下:
输出结果:
非捕获组
语法:(?:exp)
解释:和捕获组刚好相反,它用来标识那些不需要捕获的分组,说的通俗一点,就是你可以根据需要去保存你的分组。
比如上面的正则表达式,程序不需要用到第一个分组,那就可以这样写:(?:d{2})-(d{8})
序号编号分组内容00(0d{2})-(d{8})020-8565333311(d{8})85653333
验证一下:
输出结果:
3、反向引用
上面讲到捕获,我们知道:捕获会返回一个捕获组,这个分组是保存在内存中,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用。
根据捕获组的命名规则,反向引用可分为:
数字编号组反向引用:k或 umber
命名编号组反向引用:k或者\’name\’
好了 讲完了,懂吗?不懂!!!
可能连前面讲的捕获有什么用都还不懂吧?
其实只是看完捕获不懂不会用是很正常的!
因为捕获组通常是和反向引用一起使用的。
上面说到捕获组是匹配子表达式的内容按序号或者命名保存起来以便使用。
注意两个字眼:“内容” 和 “使用”。
这里所说的“内容”,是匹配结果,而不是子表达式本身,强调这个有什么用?嗯,先记住。
那这里所说的“使用”是怎样使用呢?
因为它的作用主要是用来查找一些重复的内容或者做替换指定字符。
还是举栗子吧。
比如要查找一串字母\”aabbbbgbddesddfiid\”里成对的字母
如果按照我们之前学到的正则,什么区间啊限定啊断言啊可能是办不到的,
现在我们先用程序思维理一下思路:
1)匹配到一个字母
2)匹配第下一个字母,检查是否和上一个字母是否一样
3)如果一样,则匹配成功,否则失败
这里的思路2中匹配下一个字母时,需要用到上一个字母,那怎么记住上一个字母呢???
这下子捕获就有用处啦,我们可以利用捕获把上一个匹配成功的内容用来作为本次匹配的条件
好了,有思路就要实践
首先匹配一个字母:w
我们需要做成分组才能捕获,因此写成这样:(w)
那这个表达式就有一个捕获组:(w)
然后我们要用这个捕获组作为条件,那就可以:(w)
这样就大功告成了
可能有人不明白了,是什么意思呢?
还记得捕获组有两种命名方式吗,一种是是根据捕获分组顺序命名,一种是自定义命名来作为捕获组的命名
在默认情况下都是以数字来命名,而且数字命名的顺序是从1开始的
因此要引用第一个捕获组,根据反向引用的数字命名规则 就需要 k<1>或者
当然,通常都是是后者。
我们来测试一下:
输出结果:
嗯,这就是我们想要的了。
在举个替换的例子,假如想要把字符串中abc换成a。
输出结果:
4、贪婪和非贪婪
贪婪
我们都知道,贪婪就是不满足,尽可能多的要。
在正则中,贪婪也是差不多的意思:
贪婪匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这匹配方式叫做贪婪匹配。
特性:一次性读入整个字符串进行匹配,每当不匹配就舍弃最右边一个字符,继续匹配,依次匹配和舍弃(这种匹配-舍弃的方式也叫做回溯),直到匹配成功或者把整个字符串舍弃完为止,因此它是一种最大化的数据返回,能多不会少。
前面我们讲过重复限定符,其实这些限定符就是贪婪量词,比如表达式:d{3,6}。
用来匹配3到6位数字,在这种情况下,它是一种贪婪模式的匹配,也就是假如字符串里有6个个数字可以匹配,那它就是全部匹配到。
如下面的代码。
输出结果:
由结果可见:本来字符串中的“61762828”这一段,其实只需要出现3个(617)就已经匹配成功了的,但是他并不满足,而是匹配到了最大能匹配的字符,也就是6个。
一个量词就如此贪婪了,
那有人会问,如果多个贪婪量词凑在一起,那他们是如何支配自己的匹配权的呢?
是这样的,多个贪婪在一起时,如果字符串能满足他们各自最大程度的匹配时,就互不干扰,但如果不能满足时,会根据深度优先原则,也就是从左到右的每一个贪婪量词,优先最大数量的满足,剩余再分配下一个量词匹配。
输出结果:
“617628” 是前面的d{1,2}匹配出了61,后面的匹配出了7628
\”2991\” 是前面的d{1,2}匹配出了29 ,后面的匹配出了91
\”87321\”是前面的d{1,2}匹配出了87,后面的匹配出了321
懒惰(非贪婪)
懒惰匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能少的字符,这匹配方式叫做懒惰匹配。
特性:从左到右,从字符串的最左边开始匹配,每次试图不读入字符匹配,匹配成功,则完成匹配,否则读入一个字符再匹配,依此循环(读入字符、匹配)直到匹配成功或者把字符串的字符匹配完为止。
懒惰量词是在贪婪量词后面加个“?”
代码说明*?重复任意次,但尽可能少重复+?重复1次或更多次,但尽可能少重复??重复0次或1次,但尽可能少重复{n,m}?重复n到m次,但尽可能少重复{n,}?重复n次以上,但尽可能少重复。
输出结果:
“61762” 是左边的懒惰匹配出6,右边的贪婪匹配出1762
\”2991\” 是左边的懒惰匹配出2,右边的贪婪匹配出991
\”87321\” 左边的懒惰匹配出8,右边的贪婪匹配出7321
5、反义
前面说到元字符的都是要匹配什么什么,当然如果你想反着来,不想匹配某些字符,正则也提供了一些常用的反义元字符。
元字符解释W匹配任意不是字母,数字,下划线,汉字的字符S匹配任意不是空白符的字符D匹配任意非数字的字符B匹配不是单词开头或结束的位置[x]匹配除了x以外的任意字符[aeiou]匹配除了aeiou这几个字母以外的任意字符
正则进阶知识就讲到这里,正则是一门博大精深的语言,其实学会它的一些语法和知识点还算不太难,但想要做到真正学以致用能写出非常6的正则,还有很远的距离,只有真正对它感兴趣的,并且经常研究和使用它,才会渐渐的理解它的博大精深之处,我就带你们走到这,剩下的,靠自己啦。
Excel VBA入门教程 1.7 正则表达式
在VBA中使用正则表达式,因为正则表达式不是vba自有的对象, 故此要用它就必须采用两种方式引用它:一种是前期绑定,另外一种是后期绑定。
前期绑定:就是手工勾选工具/引用中的Microsoft VBScript Regular Expressions 5.5; 然后在代码中定义对象:Dim regExp As New RegExp;后期绑定:使用CreateObject方法定义对象:CreateObject(\”vbscript.regexp\”)
RegExp对象的属性:
- Global – 设置或返回一个Boolean值,该值指明在整个搜索字符串时模式是全部匹配还是只匹配第一个。如果搜索应用于整个字符串,Global 属性的值应该为 True,否则其值为 False。默认的设置为True。
- Multiline – 返回正则表达式是否具有标志, 缺省值为False。如果指定的搜索字符串分布在多行,这个属性是要设置为True的。
- IgnoreCase – 设置或返回一个Boolean值,指明模式搜索是否区分大小写。如果搜索是区分大小写的,则IgnoreCase 属性应该为False;否则应该设为True。缺省值为True。
- Pattern – 设置或返回被搜索的正则表达式模式。被搜索的正则字符串表达式。它包含各种正则表达式字符。
RegExp对象的方法:
- Execute – 对指定的字符串执行正则表达式搜索。需要传入要在其上执行正则表达式的文本字符串。正则表达式搜索的设计模式是通过RegExp对象的Pattern来设置的。Execute方法返回一个Matches集合,其中包含了在string中找到的每一个匹配的Match对象。如果未找到匹配,Execute将返回空的Matches集合。
- Replace – 替换在正则表达式查找中找到的文本。
- Test – 对指定的字符串执行一个正则表达式搜索,并返回一个Boolean值指示是否找到匹配的模式。Global属性对Test方法没有影响。如果找到了匹配的模式,Test方法返回True;否则返回False。
- MatchCollection对象与Match对象 匹配到的所有对象放在MatchCollection集合中,这个集合对象只有两个只读属性:
- Count:匹配到的对象的数目
- Item:集合的又一通用方法,需要传入Index值获取指定的元素。 一般,可以使用ForEach语句枚举集合中的对象。集合中对象的类型是Match。
- Match对象有以下几个只读的属性:FirstIndex – 匹配字符串在整个字符串中的位置,值从0开始。Length – 匹配字符串的长度。Value – 匹配的字符串。SubMatches – 集合,匹配字符串中每个分组的值。作为集合类型,有Count和Item两个属性。
Sample Code(前期绑定):
Sample Code(后期绑定):
VBA编程神器 VBA代码助手 可以极大提高编程速度,降低编程门槛欢迎使用
私信回复 代码助手 即可获得
用法 输入 字典+空格 即可看到如下提示 也可输入 dic+空格 zd+空格 均可得到提示
本提示数据库可完全自定义!
更多功能请大家探索
本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com
文章为作者独立观点不代本网立场,未经允许不得转载。