一文搞懂正则表达式
在日常的开发工作中,正则表达式犹如空气般无所不在,扮演着不可或缺的角色。我们时常依赖正则来解决各类问题,例如精准定位符合特定规则的文本。然而,我注意到许多开发者对正则持有“复杂难记”的观念,难以全面掌握这一强大的工具,以至于每当在实际工作中遇到需要运用正则表达式的情况时,往往不得不翻阅资料才能编写出合适的正则。
正则表达式作为一种无比强大的工具,无疑值得我们在开发过程中深入学习并熟练运用。它能帮助我们高效解决各类复杂问题,显著提升工作效率,从而让我们的编程之旅更加得心应手,游刃有余。
你可以这样来理解正则是一个非常强大的文本处理工具,我们可以利用它来教验数据的有效性,比如用户输入的手机号是不是符合规则;另外,也可以用正则从文本中提取需要的内容,比如从网页中抽取我们需要的数据;此外,正则还可以用来做文本内容的替换从而得到我们想要的内容,可以说正则已经渗透到了我们日常工作的方方面面,不难发现学习并利用好正则至关重要。
怎么理解正则表达式呢?简单来说它就是描述字符串的规则,最简单的正则就是单个的普通字符,比如字 a 它可以匹配 Hanmeimei is a girl 中的 H 之后的 a 也可以匹配 is 之后的 a,这个和我们日常见到的普通的字符串查找其实是一样的。
除了刚刚说的普通的字符串的查找之外,有时候我们还需要查找符合某个规则的文本;比如我们想找出字符串中所有的数字,而任意数字在正则中可以用 \\d 来表示,它表示 0~9 这十个数字。
单个的 \\d 只能表示一个数字我们如果在后面加上量词,比如 \\d{11} 这样的话就表示 11 位数字。我们的手机号就是 11 位的,如果文本中只有姓名和手机号,我们就可以用这个提取出里面的手机号。
正则不仅仅能找出符合要求的文本,还可以对文本进行替换。比如说我们有这样一段文本 the cat cat is in the the hat.,我们想要从文本中找出重复的单词把它统一替换成一个单词,最终的结果就是 the cat is in the hat.,可以发现正则在日常工作中使用非常广泛也非常重要。
正则表达式中其实有很多的原字符,比如 \\d,它在正则中不代表反斜杠和字母 d 而是代表任意的数字,所谓的原字符就是指正则表达式中具有特殊含义的那些专用的字符,正则表达式中原字符非常多那么我们如何才能记住它们呢?在这里给我给大家介绍一个方法就是分类记忆。
我们可以把原字符大概的分成这么几类,有基础常用的、特殊的空白符、表示某个范围的、表示边界的、表示次数的量词;原字符虽然非常的多但如果我们按照分类去理解记忆,效果就会好很多。接下来我们就按照前面说的原字符的分类来逐一的进行讲解。
首先非常常用的基础的原字符,比如英文的点它表示换行以外的任意字符,\\d 表示任意的数字,\\w 表示任意的数字字母或者下滑线,而 \\s 表示任意的空白符,另外还有与之对应的 \\D、\\W 和 \\S 分别表示着和原来相反的意思。
接着我们来看一下空白符有哪些,其实我们在编程中经常会遇到比如说换行符 \\n TAB 制表符 \\t 等,有编程经验的同学应该知道在每行文本的结束的位置都有换行,那么不同的系统会稍有区别比如说像 Windows 系统是 \\r\\n,Linux 和 MacOS 是 是\\n,那么在正则中这些空白符也是类似的只要记住它们就行,平时使用正则大部分场景我们使用\\s 就可以满足需求。
刚刚我们说到的基础的原字符也好,空白符也好,它们都只能匹配单个字符比如说 \\d 只能匹配一个数字,有时候我们需要匹配单个字符或某个部分来重复 N 次或者至少出现一次或者最多出现三次这样,这就需要我们来用到表示量次的原字符。
在正则中英文的 * 它代表出现 0 到多次 + 表示出现 1 到多次 ? 表示 0 到 1 次,而 {m,n} 可以表示 m 到 n 次。
就比如说由于业务需要我们在日制中添加了 user 这样一个字段,但旧日志可能是没有这个字段的;这个时候我们可以使用 ? 来表示它出现 0 次或 1 次,在这里就可以表示 User 这个字段存在和不存在两种情况。
学习到了量词我们就可以使用 /d{11} 来匹配所有的手机号,但是我们要明白这个范围比较大有一些不是手机号的也能匹配上,比如说 11 个 0 这个时候我们就需要在这一个特殊的范围内进行查找我们符合我们要求的数字。
管道符号它是隔开多个正则来表示满足其中任意一个就行,比如 ab|bc 它能匹配上 ab 也能匹配上 bc;中括号它可以代表多选一可以表示中括号里面任意单个字符,所以任意的元音字母我们就可以用 [aeiou] 来表示;另外中括号中我们可以用 – 来表示范围比如说 [a-z] 可以表示所有的小写字母;如果中括号中的第一个是脱字符(^)它可以表示非,那么就表示不能出现里面的任何一个单个元素。
知道了这些我们就可以轻松搞定前面的问题,手机号的匹配可以这样优化第二位可能 是3~9 那么我们可以写成 [3456789] 或者写成中 [3-9 或者是我们用 [^012] 也就是说把 012 排除掉。
前面我们学习了如何匹配文本中包含的内容,但是有时候我们除了要找出符合某种组成规则的字符外还对匹配到的文本的位置有要求,比如说某个日志文件我们需要找出每行以时间开头的日志。这里要使用的正则不仅要满足时间的格式要求,它还要满足匹配道美行的开头才行,这时我们就需要用到边界相关的原字符了。
和刚才说到的中括号中的脱字符不同,如果正则中开始是脱字符,它表示每行开头的部分只有满足正则的规则的前提下才能够匹配上;类似的正则中有美元的符号 $ 表示匹配行的结束;而 \\b 来表示匹配的单词的边界;\\A 和 \\Z 它匹配整个字符串的开始和结束而不是每行的首尾;与 \\A 不同的是脱字符可以匹配任意行的开头而不是整个文本的开头。
接着我们来看一下正则中的贪婪与非贪婪,正则表达式中表示次数的量词默认是贪心的;也就是说它尽可能的多的去匹配符合要求的内容 ,举个例子来说我们要找出引号里面的单词;可能很多同学很容易写出 .+ 这样的正则。
但这样对吗?如果有多个双引号的时候是不会正常工作的,因为表示次数的量词默认是贪心的,它要尽可能多的去匹配符合要求的内容 ,不过想要让它变成非贪婪也很容易我们只需要在量词后面加上问号就可以了。
从示例中可以看出对比上的差异左右的文本是一样的,其中有两对双引号不同之处在于,图的左边不加问号时是贪婪匹配,可以看到匹配上了第一个引号到最后一个引号之间的所有的内容;而右边这个图它表示 1 到多次,加号后面有一个问号,结果就找到了符合要求的并且长度是最短的,这就是进行了非贪婪的匹配。
当我们对想要的提取的字符串的左边或者是右边的环境有要求的时候,比如说我们要查找左边是数字的字母,这个时候我们需要用到正则的环视,简单的说环视就是在我们给定的规则前或者是规则后来加一些限制。
下图就是利用环视来提取出左边是标签右边是标签的字符。
们再来了解一下正则中的子组,它的功能是将正则分成若干个小组用扩号来扩起来,那么将正则保存成一个子组。子组可以用来表示某个部分的内容在后面重复出现或者是对某个部分的内容进行替换。另外,正则匹配的时候我们还可以指定 flag,比如用点可以匹配所有字符,包括换行多行的匹配模式或者是大小写不敏感的匹配模式。
我们回到今天开头提出的问题也就是如何将文本中重复出现的单词替换成单个单词。在这里我们可以分成两步来操作,首先我们需要查找出相关的内容然后再对其进行替换。
我们来先看一下查找部分,我们可以简单的用 w+ 来表示一个单词,把它用扩号扩起来意思就是保存成了一个子组;这是我们写正则中的第一个子组。然后我们在空格之后用 \\1,它的意思就是前面的子组再重复出现一次,这样的话我们就找到了前面出现的单词后面又再重复出现一次相邻的两个单词。
在替换部分我们使用 \\1 来表示正则中第一个子组,也就是说找到的是什么单词我们这里就把它替换成什么单词;然后可以看到最终的结果那里 cat 和 the 重复的已经移除。这样的话我们就完成了移除重复单词的工作,到这里我们就解决了开头我们提出的问题。
那么除了工作中我们能使用到正则在生活中其实我们也可以用正则来做一些非常有趣的事情,这里我引入一个案例比如说我们来用正则来帮助我们下载电视剧。用正则来提取出电视剧对应的网址,首先我们可以使用 chrome 或者 firefox 等浏览器在百度中搜索相应的电视剧的名字。
然后我们单击右键审核元素或者检查,然后获取到每一集电视剧的链接的 html 代码,接下来通过找出规律我们就可以写出一个能匹配上所有电视剧网址的这样的正则,然后可以点击查找所有。
最后把查找的内容剪切出来,把剪切出来的内容粘贴到一个新的地方,通过替换等方式我们可以在这些网址的开头都加上 you-get 命令
u-get 命令它是一个资源下载的工具,这个工具需要自己去安装才可以使用,最后我们在 sell 上执行这些命令就可以下载这部电视剧了。
最后我来给你总结一下,正则表达式中原字符的分类记忆,大家可以在脑海中回忆一下,基础常用的、空白符、范围、边界、量词等;子组则是将一个正则中的部分内容进行分组常常用于内容的替换;而贪婪和非贪婪其实就是量词后面添加问号,去改变匹配次数的偏好;环视则是限制匹配内容之前或之后要符合某个规则。
今天通过大量的示例让你加强了对正则各类原字符,贪婪与非贪婪,环视等方面的理解,掌握了这些内容相信你就能够掌握日常工作中的一些基本使用了。这里给大家推荐一个网站 https://regex101.com/ 这个网站是学习正则非常棒的一个工具感兴趣可以进一步的了解一下。
难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式
大家好,我是猴哥!猴哥出品,必是精品,点击关注,给你好看!
持续更新通俗易懂的技术知识,为您护航充电!
本文章节内容
- 什么是正则表达式?—一个例子看懂
- 正则符号详解之普通元字符 —[a-z]比N行代码好用多了
- 正则符号详解之特殊字符 —简洁版的元字符
- 正则符号详解之扩展表示法字符 —比算法都好用
- 两个实用的正则表达式 —够你写半天的代码
本文将对正则表达式进行完整的介绍,以通俗易懂的语言对正则表达式的每个字符功能进行详细解释并通过具体示例进行补充说明,旨在让广大读者朋友们迅速掌握正则表达式这项工作技能并加以出色的运用,助力读者朋友们在脚本语言(Python、JavaScript等)盛行的互联网时代脱颖而出!
正则表达式
一、神奇的正则表达式是什么?
为让读者朋友们先对正则表达式有个大致的概念,本节我们将通过一个非常简单的示例来解释正则表达式到底是什么?如:
正则表达式:[0-9]+
表达式解析:[0-9]表示一位0-9之间的任意数字,注意[0-9]只表示一位数字,+ 号表示前一个正则表达式表示的字符至少重复出现1次以上
表达式功能:表示一位以上的数字,如1,123,,134646757658……除数字外的字符串都不符合该正则表达式
从上例中可以看出,正则表达式其实就是一个描述一种字符串元素组成的符号表达式,字符串只有符合这种格式才是正确的,可以实现一种过滤逻辑功能!
正则表达式虽然描述的是一种字符串元素组成的表达式,但在实际编程应用中是以正则表达式描述的字符串格式来匹配查找对应字符串的。正则表达式可用于各种字符串的检查、验证、查找、提取等程序功能开发,如检查身份证号、密码、账户名等场合!
正则表达式
下面我们将对正则表达式的所有符号及其功能进行详细的讲解,保证读者朋友们能够看懂正则表达式并编写简单的正则表达式,待大家融会贯通之后结合扩展正则符号,编写设计复杂且具有强大功能的正则表达式也将不在话下!
神奇的正则表达式
正则表达式是一种由各种符号组成的逻辑公式,本文将把正则符号分为三大类:普通元字符、特殊字符、扩展表示法字符。下面将介绍第一类:正则表达式中的普通元字符!
二、正则符号详解之普通元字符
普通元字符只有十多个,考虑到理解难度问题,我们将对每个元字符以通俗易懂的语言进行再解释,并结合多个示例再说明,让读者朋友们能够理解更深刻。先来看看正则表达式中的普通元字符有哪些?如下图:
普通元字符集
先来看普通元字符功能与示例:
▲元字符1: value —表示与value字面字符一致的查找功能,如
- abc:表示匹配查找含abc的字符串,例如可匹配查找123abc456、abcdef中的abc
▲元字符2:regex1|regex2 —表示正则表达式regex1或regex2,如
- abc|123:表示查找含abc或123的字符串,例如可查找123abc456、abcdef123中的abc和123
▲元字符3:.(点)—表示查找除空格和空行之外的任何单个单字符,如字母,数字,符号等等
▲元字符4:^ —匹配查找字符串起始部分,如
- ^abc:匹配查找字符串开头为abc的字符串,例如可匹配查找abcdef中的abc,不可匹配查找ababcdef中的abc
▲元字符5:$ —匹配查找字符结尾部分,如
- abc$:匹配查找字符串结尾为abc的字符串,例如匹配查找defabc中的abc,不可匹配查找abcdef中的abc
▲元字符6:* —在*前的第一个正则表达式表示的字符至少出现0次以上,如
- [0-9]*:[0-9]表示一位数字,那么[0-9]*表示匹配查找出现0次以上的数字字符串
▲元字符7:+ —在+前的第一个正则表达式表示的字符至少出现1次以上,如
- [0-9]+:[0-9]表示一位数字,那么[0-9]+表示匹配查找出现1次以上的数字字符串
▲元字符8:? —在?前的第一个正则表达式表示的字符出现0次或1次
▲元字符9:{N} —在{N}前的第一个正则表达式表示的字符出现N次,如
- [0-9]{2}:表示匹配查找由2位0-9之间的数字组成的字符串
▲元字符10:{X,Y} —在{X,Y}前的第一个正则表达式表示的字符出现X到Y次,如
- [0-9]{3,6}:表示匹配查找由3到6位0-9之间的数字组成的字符串
▲元字符11:[…] —匹配查找…中的任意单个字符,如
- [abc]:表示匹配查找含a或b或c字母的字符串
▲元字符12:[p-q] —范围描述,匹配查找p-q范围中任意单个字符,如
- [0-9]:表示匹配查找0-9之间的任意单个数字
▲元字符13:[^…] —非描述符,匹配查找不属于…表示的任意单个字符,如
- [^A-Z]:不匹配查找A-Z之间的大写字母
- [^abc]:不匹配查找字母a或b或c
▲元字符14:(…) —一个封闭的正则表达式,如
- ([A-Z]{2}):匹配查找两个大写字母
对于上面的元字符及其功能,读者朋友们可能还是不清楚具体怎么使用,我们举个实际编程应用中的例子为大家说明。要求:编写程序检查用户输入的内容是否是纯数字,下图是编程解决方案:
- ^[0-9]+$ — 开头结尾都是数字,中间也为数字,中间一位数字重复出现1次以上
正则表达式检查数字
三、正则符号详解之特殊字符
正则表达式的第二类正则符号—特殊字符,可以理解为简洁版的普通元字符,常见的特殊字符有:
以下是文字描述,便于读者复制保存:
▲特殊字符1:\\d —表示匹配查找单个数字字符,等价于[0-9]
▲特殊字符2:\\D —表示不匹配查找单个数字字符,等价于[^0-9]
▲特殊字符3:\\w —表示匹配查找单个字母或数字字符,等价于[a-zA-Z0-9]
▲特殊字符4:\\W —表示不匹配查找单个字母或数字字符,等价于[^a-zA-Z0-9]
▲特殊字符5:\\b —表示匹配查找单词(字符到空格直接的字符串)边界,如
- \\bab:表示可匹配查找able、abnormal等单词中的ab,不能匹配cable中的ab
- y\\b:表示可匹配查找enjoy、city等单词中的y,不能匹配ayc_13ab中的y
▲特殊字符6:\\B—表示不匹配查找单词边界,如
- ew\\B:表示可匹配查找yavewafg中的ew,但不能匹配查找new中的ew
▲特殊字符7:\\s—表示匹配查找空字符,等价于[\\n\\t\\r\\v\\f](换行符/制表符/回车符/垂直制表符/换页符/)
▲特殊字符8:\\S—表示不匹配查找空字符,等价于[^\\n\\t\\r\\v\\f]
▲特殊字符9:\\A—表示匹配查找字符串开头,等价于 ^
▲特殊字符10:\\Z—表示匹配查找字符串结尾,等价于 $
▲特殊字符11:\\x—类似编程中的转义字符,表示匹配查找特殊字符,如
- \\?:匹配查找问号
- \\.:匹配查找点号
- \\*:匹配查找星号
- \\+:匹配查找加号
- ……
四、正则符号详解之扩展表示法字符
提到正则表达式的扩展表示法时,要给大家强调一下,扩展表示法字符实用的只有四个,分别是:(?=…)、(?!…)、(?<=…)、(?<!…)。需要说明的是(?:)与扩展表示法根本就不是一类,尽管很多书籍将其归为扩展表示法,但实际上它只是形式相似而已,所以读者朋友们不必过度在意这个字符,本文也不做赘述。
在详细介绍四种扩展表示法之前,我们先要说明一个概念——断言,又叫预查或环视,先来看术语解释:
四种扩展表示法
什么意思呢?下面我们来看解释,比如说你想提取某个文本中的IP地址,如192.168.***.***,但文本中存在一种情况“56192.168.***.***6564”,虽然这个字符串中存在192.168.***.***,但显然它不是有效的IP地址,也就是说我们在查找IP地址 192.168.***.***的时候,其前后都不能是数字,那么我们就需要提前查看或者环视周围,扩展表示法就起到了这样的作用,如匹配查找office单词:
- office(?=2003|2007|365):只能匹配查找office2003或者office2007或office365中的office,无法匹配office2010中的office,匹配结果只包含office,称为非获取匹配查找
- office(?!2003|2007|365):可以匹配查找office2010中的office,而无法匹配office2003或者office2007或office365中的office,匹配结果只包含office,称为非获取匹配查找
- (?<=上海|北京)人:只能匹配查找上海人或北京人中“人”,而无法匹配广州人中的“人”,匹配结果只包含“人”,称为非获取匹配查找
- (?<!上海|北京)人:只能匹配查找非上海人或北京人中“人”,如广州人中的“人”,而无法匹配上海人或北京人中“人”,匹配结果只包含“人”,称为非获取匹配查找
关于具体的编程应用案例,感兴趣的读者朋友可以直接用今日头条app上方的搜索框输入:“程序员水平进阶之正则表达式”,进入专栏进行查看:
头条搜索
五、附上两个实用的正则表达式
关于以下两种正则表达式的详细解释可参见文章“程序猿技能进阶:设计一条检查用户名是否合法的正则表达式”与文章“程序猿技能进阶:一条正则表达式检查用户密码的合法性”。
★ 检查用户名是否符合要求的正则表达式:
//要求一:用户名必须以字母开头
//要求二:用户名只能包含大小写字母、数字、下划线
//要求三:总长度为6~16位
//用于检查验证用户名是否符合上述要求的正则表达式:^[a-zA-Z][a-zA-Z0-9_]{5,15}$
★ 检查用户密码设置是否符合要求的正则表达式:
正则表达式:((?!^[0-9]+$)(?!^[A-Z]+$)(?!^[a-z]+$)(?!^[^A-Za-z0-9]+$))^.[^\\s]{8,16}$
注:((?!…)(?!…))之间是同时满足的意思
表示由大小写英文字母与数字混合组成的6到16位密码
文中如有不妥之处,敬请批评指正
读者朋友们对于本讲内容中有任何疑问,都可以通过评论、私信等方式留言,与其他读者或者本人进行交流讨论,在下将鼎力协助!
正则表达式
不会正则表达式?看这篇就够了
正则表达式在几乎所有语言中都可以使用,无论是前端的JavaScript、还是后端的Java、c#。他们都提供相应的接口/函数支持正则表达式。
很神奇的是:无论你大学选择哪一门计算机语言,都没有关于正则表达式的课程给你修,在你学会正则之前,你只能看着那些正则大师们,写了一串外星文似的字符串,替代了你用一大篇幅的if else代码来做一些数据校验。
既然喜欢,那就动手学呗,可当你百度出一一堆相关资料时,你发现无一不例外的枯燥至极,难以学习。
本文旨在用最通俗的语言讲述最枯燥的基本知识!
# 正则基础知识点
1、元字符
万物皆有缘,正则也是如此,元字符是构造正则表达式的一种基本元素。
我们先来记几个常用的元字符:
元字符说明.匹配除换行符以外的任意字符w匹配字母或数字或下划线或汉字s匹配任意的空白符d匹配数字匹配单词的开始或结束^匹配字符串的开始$匹配字符串的结束
有了元字符之后,我们就可以利用这些元字符来写一些简单的正则表达式了,
比如:
匹配有abc开头的字符串:abc或者^abc
匹配8位数字的QQ号码:^dddddddd$
匹配1开头11位数字的手机号码:^1dddddddddd$
2、重复限定符
有了元字符就可以写不少的正则表达式了,但细心的你们可能会发现:别人写的正则简洁明了,而不理君写的正则一堆乱七八糟而且重复的元字符组成的。正则没提供办法处理这些重复的元字符吗?
答案是有的!
为了处理这些重复问题,正则表达式中一些重复限定符,把重复部分用合适的限定符替代,下面我们来看一些限定符:
语法说明*重复零次或更多次+重复一次或更多次?重复零次或一次{n}重复n次{n,}重复n次或更多次{n,m}重复n到m次
有了这些限定符之后,我们就可以对之前的正则表达式进行改造了,比如:
匹配8位数字的QQ号码:^d{8}$
匹配1开头11位数字的手机号码:^1d{10}$
匹配银行卡号是14~18位的数字:^d{14,18}$
匹配以a开头的,0个或多个b结尾的字符串^ab*$
3、分组
从上面的例子(4)中看到,限定符是作用在与他左边最近的一个字符,那么问题来了,如果我想要ab同时被限定那怎么办呢?
正则表达式中用小括号()来做分组,也就是括号中的内容作为一个整体。
因此当我们要匹配多个ab时,我们可以这样。
如匹配字符串中包含0到多个ab开头:^(ab)*
4、转义
我们看到正则表达式用小括号来做分组,那么问题来了:
如果要匹配的字符串中本身就包含小括号,那是不是冲突?应该怎么办?
针对这种情况,正则提供了转义的方式,也就是要把这些元字符、限定符或者关键字转义成普通的字符,做法很简答,就是在要转义的字符前面加个斜杠,也就是即可。
如要匹配以(ab)开头:^((ab))*
5、条件或
回到我们刚才的手机号匹配,我们都知道:国内号码都来自三大网,它们都有属于自己的号段,比如联通有130/131/132/155/156/185/186/145/176等号段,假如让我们匹配一个联通的号码,那按照我们目前所学到的正则,应该无从下手的,因为这里包含了一些并列的条件,也就是“或”,那么在正则中是如何表示“或”的呢?
正则用符号 | 来表示或,也叫做分支条件,当满足正则里的分支条件的任何一种条件时,都会当成是匹配成功。
那么我们就可以用“或”条件来处理这个问题:^(130|131|132|155|156|185|186|145|176)d{8}$
6、区间
看到上面的例子,是不是看到有什么规律?是不是还有一种想要简化的冲动?
实际是有的
正则提供一个元字符中括号 [] 来表示区间条件。
- 限定0到9 可以写成[0-9]
- 限定A-Z 写成[A-Z]
- 限定某些数字 [165]
那上面的正则我们还改成这样:
^((13[0-2])|(15[56])|(18[5-6])|145|176)d{8}$
好了,正则表达式的基本用法就讲到这里了,其实它还有非常多的知识点以及元字符,我们在此只列举了部分元字符和语法来讲,旨在给那些不懂正则或者想学正则但有看不下去文档的人做一个快速入门级的教程,看完本教程,即使你不能写出高大上的正则,至少也能写一些简单的正则或者看得懂别人写的正则了。
# 正则进阶知识点
1、零宽断言
无论是零宽还是断言,听起来都古古怪怪的,
那先解释一下这两个词。
断言:俗话的断言就是“我断定什么什么”,而正则中的断言,就是说正则可以指明在指定的内容的前面或后面会出现满足指定规则的内容,意思正则也可以像人类那样断定什么什么,比如\”ss1aa2bb3\”,正则可以用断言找出aa2前面有bb3,也可以找出aa2后面有ss1.
零宽:就是没有宽度,在正则中,断言只是匹配位置,不占字符,也就是说,匹配结果里是不会返回断言本身。
意思是讲明白了,那他有什么用呢?
我们来举个栗子:假设我们要用爬虫抓取csdn里的文章阅读量。通过查看源代码可以看到文章阅读量这个内容是这样的结构
\”<span class=\”read-count\”>阅读数:641</span>\”
其中也就‘641’这个是变量,也就是说不同文章不同的值,当我们拿到这个字符串时,需要获得这里边的‘641’有很多种办法,但如果正则应该怎么匹配呢?
下面先来讲几种类型的断言:
正向先行断言(正前瞻)
语法:(?=pattern)
作用:匹配pattern表达式的前面内容,不返回本身。
这样子说,还是一脸懵逼,好吧,回归刚才那个栗子,要取到阅读量,在正则表达式中就意味着要能匹配到‘’前面的数字内容。
按照上所说的正向先行断言可以匹配表达式前面的内容,那意思就是:(?=) 就可以匹配到前面的内容了。
匹配什么内容呢?如果要所有内容那就是:
可是老哥我们要的只是前面的数字呀,那也简单咯,匹配数字 d,那可以改成:
大功告成!
正向后行断言(正后顾)
语法:(?<=pattern)
作用:匹配pattern表达式的后面的内容,不返回本身。
有先行就有后行,先行是匹配前面的内容,那后行就是匹配后面的内容啦。
上面的栗子,我们也可以用后行断言来处理。
就这么简单。
负向先行断言(负前瞻)
语法:(?!pattern)
作用:匹配非pattern表达式的前面内容,不返回本身。
有正向也有负向,负向在这里其实就是非的意思。
举个栗子:比如有一句 “我爱祖国,我是祖国的花朵”
现在要找到不是\’的花朵\’前面的祖国
用正则就可以这样写:祖国(?!的花朵)。
负向后行断言(负后顾)
语法:(?<!pattern)
作用:匹配非pattern表达式的后面内容,不返回本身。
2、捕获和非捕获
单纯说到捕获,他的意思是匹配表达式,但捕获通常和分组联系在一起,也就是“捕获组”。
捕获组:匹配子表达式的内容,把匹配结果保存到内存中中数字编号或显示命名的组里,以深度优先进行编号,之后可以通过序号或名称来使用这些匹配结果。
而根据命名方式的不同,又可以分为两种组。
数字编号捕获组
语法:(exp)
解释:从表达式左侧开始,每出现一个左括号和它对应的右括号之间的内容为一个分组,在分组中,第0组为整个表达式,第一组开始为分组。
比如固定电话的:020-85653333
他的正则表达式为:(0d{2})-(d{8})
按照左括号的顺序,这个表达式有如下分组:
序号编号分组内容00(0d{2})-(d{8})020-8565333311(0d{2})02022(d{8})85653333
我们用Java来验证一下:
输出结果:
可见,分组个数是2,但是因为第0个为整个表达式本身,因此也一起输出了。
命名编号捕获组
语法:(?exp)
解释:分组的命名由表达式中的name指定
比如区号也可以这样写:(?d{2})-(?d{8})
按照左括号的顺序,这个表达式有如下分组:序号名称分组内容00(0d{2})-(d{8})020-856533331quhao(0d{2})0202haoma(d{8})85653333
用代码来验证一下:
输出结果:
非捕获组
语法:(?:exp)
解释:和捕获组刚好相反,它用来标识那些不需要捕获的分组,说的通俗一点,就是你可以根据需要去保存你的分组。
比如上面的正则表达式,程序不需要用到第一个分组,那就可以这样写:(?:d{2})-(d{8})
序号编号分组内容00(0d{2})-(d{8})020-8565333311(d{8})85653333
验证一下:
输出结果:
3、反向引用
上面讲到捕获,我们知道:捕获会返回一个捕获组,这个分组是保存在内存中,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用。
根据捕获组的命名规则,反向引用可分为:
数字编号组反向引用:k或 umber
命名编号组反向引用:k或者\’name\’
好了 讲完了,懂吗?不懂!!!
可能连前面讲的捕获有什么用都还不懂吧?
其实只是看完捕获不懂不会用是很正常的!
因为捕获组通常是和反向引用一起使用的。
上面说到捕获组是匹配子表达式的内容按序号或者命名保存起来以便使用。
注意两个字眼:“内容” 和 “使用”。
这里所说的“内容”,是匹配结果,而不是子表达式本身,强调这个有什么用?嗯,先记住。
那这里所说的“使用”是怎样使用呢?
因为它的作用主要是用来查找一些重复的内容或者做替换指定字符。
还是举栗子吧。
比如要查找一串字母\”aabbbbgbddesddfiid\”里成对的字母
如果按照我们之前学到的正则,什么区间啊限定啊断言啊可能是办不到的,
现在我们先用程序思维理一下思路:
1)匹配到一个字母
2)匹配第下一个字母,检查是否和上一个字母是否一样
3)如果一样,则匹配成功,否则失败
这里的思路2中匹配下一个字母时,需要用到上一个字母,那怎么记住上一个字母呢???
这下子捕获就有用处啦,我们可以利用捕获把上一个匹配成功的内容用来作为本次匹配的条件
好了,有思路就要实践
首先匹配一个字母:w
我们需要做成分组才能捕获,因此写成这样:(w)
那这个表达式就有一个捕获组:(w)
然后我们要用这个捕获组作为条件,那就可以:(w)
这样就大功告成了
可能有人不明白了,是什么意思呢?
还记得捕获组有两种命名方式吗,一种是是根据捕获分组顺序命名,一种是自定义命名来作为捕获组的命名
在默认情况下都是以数字来命名,而且数字命名的顺序是从1开始的
因此要引用第一个捕获组,根据反向引用的数字命名规则 就需要 k<1>或者
当然,通常都是是后者。
我们来测试一下:
输出结果:
嗯,这就是我们想要的了。
在举个替换的例子,假如想要把字符串中abc换成a。
输出结果:
4、贪婪和非贪婪
贪婪
我们都知道,贪婪就是不满足,尽可能多的要。
在正则中,贪婪也是差不多的意思:
贪婪匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这匹配方式叫做贪婪匹配。
特性:一次性读入整个字符串进行匹配,每当不匹配就舍弃最右边一个字符,继续匹配,依次匹配和舍弃(这种匹配-舍弃的方式也叫做回溯),直到匹配成功或者把整个字符串舍弃完为止,因此它是一种最大化的数据返回,能多不会少。
前面我们讲过重复限定符,其实这些限定符就是贪婪量词,比如表达式:d{3,6}。
用来匹配3到6位数字,在这种情况下,它是一种贪婪模式的匹配,也就是假如字符串里有6个个数字可以匹配,那它就是全部匹配到。
如下面的代码。
输出结果:
由结果可见:本来字符串中的“61762828”这一段,其实只需要出现3个(617)就已经匹配成功了的,但是他并不满足,而是匹配到了最大能匹配的字符,也就是6个。
一个量词就如此贪婪了,
那有人会问,如果多个贪婪量词凑在一起,那他们是如何支配自己的匹配权的呢?
是这样的,多个贪婪在一起时,如果字符串能满足他们各自最大程度的匹配时,就互不干扰,但如果不能满足时,会根据深度优先原则,也就是从左到右的每一个贪婪量词,优先最大数量的满足,剩余再分配下一个量词匹配。
输出结果:
“617628” 是前面的d{1,2}匹配出了61,后面的匹配出了7628
\”2991\” 是前面的d{1,2}匹配出了29 ,后面的匹配出了91
\”87321\”是前面的d{1,2}匹配出了87,后面的匹配出了321
懒惰(非贪婪)
懒惰匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能少的字符,这匹配方式叫做懒惰匹配。
特性:从左到右,从字符串的最左边开始匹配,每次试图不读入字符匹配,匹配成功,则完成匹配,否则读入一个字符再匹配,依此循环(读入字符、匹配)直到匹配成功或者把字符串的字符匹配完为止。
懒惰量词是在贪婪量词后面加个“?”
代码说明*?重复任意次,但尽可能少重复+?重复1次或更多次,但尽可能少重复??重复0次或1次,但尽可能少重复{n,m}?重复n到m次,但尽可能少重复{n,}?重复n次以上,但尽可能少重复。
输出结果:
“61762” 是左边的懒惰匹配出6,右边的贪婪匹配出1762
\”2991\” 是左边的懒惰匹配出2,右边的贪婪匹配出991
\”87321\” 左边的懒惰匹配出8,右边的贪婪匹配出7321
5、反义
前面说到元字符的都是要匹配什么什么,当然如果你想反着来,不想匹配某些字符,正则也提供了一些常用的反义元字符。
元字符解释W匹配任意不是字母,数字,下划线,汉字的字符S匹配任意不是空白符的字符D匹配任意非数字的字符B匹配不是单词开头或结束的位置[x]匹配除了x以外的任意字符[aeiou]匹配除了aeiou这几个字母以外的任意字符
正则进阶知识就讲到这里,正则是一门博大精深的语言,其实学会它的一些语法和知识点还算不太难,但想要做到真正学以致用能写出非常6的正则,还有很远的距离,只有真正对它感兴趣的,并且经常研究和使用它,才会渐渐的理解它的博大精深之处,我就带你们走到这,剩下的,靠自己啦。
本文作者及来源:Renderbus瑞云渲染农场https://www.renderbus.com
文章为作者独立观点不代本网立场,未经允许不得转载。