常用正则表达式

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。

用户名：/^a-z0-9_-]

密码：/^a-z0-9_-]

十六进制值：/^#?([a-f0-9]|[a-f0-9])$

电子邮箱：/^a-z0-9da-za-z\.]

url：/^httpsda-za-z\.]w

ip 地址：/^25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)

html 标签：/^a-z]+)1>|\s+\/

unicode编码中的汉字范围：/^u4e00-u9fa5],$

匹配中文字符的正则表达式： [u4e00-\u9fa5]

评注：匹配中文还真是个头疼的事，有了这个表达式就好办了。

匹配双字节字符(包括汉字在内)：[x00-\xff]

评注：可以用来计算字符串的长度（一个双字节字符长度计2，ascii字符计1）

匹配空白行的正则表达式：\s*

评注：可以用来删除空白行。

匹配html标记的正则表达式：<(s*?)

评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力。

匹配首尾空白字符的正则表达式：^\s*|\s*$

评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式。

匹配email地址的正则表达式：\w+([w+)*w+([w+)*w+([w+)*

评注：表单验证时很实用。

匹配**url的正则表达式：[a-za-z]+:s]*

评注：网上流传的版本功能很有限，上面这个基本可以满足需求。

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^a-za-z][a-za-z0-9_]$

评注：表单验证时很实用。

匹配国内**号码：\d-\d|\d-\d

评注：匹配形式如 0511-**或 021-**

匹配腾讯qq号：[1-9][0-9]

评注：腾讯qq号从10000开始。

匹配中国大陆邮政编码：[1-9]\d(?!d)

评注：中国大陆邮政编码为6位数字。

匹配身份证：\d|\d

评注：中国大陆的身份证为15位或18位。

匹配ip地址：\d+\.d+\.d+\.d+

评注：提取ip地址时有用。

匹配特定数字：

[1-9]\d*$ 匹配正整数。

-[1-9]\d*$ 匹配负整数。

-?[1-9]\d*$ 匹配整数。

[1-9]\d*|0$ /匹配非负整数（正整数 + 0）

-[1-9]\d*|0$ /匹配非正整数（负整数 + 0）

[1-9]\d*\.d*|0\.\d*[1-9]\d*$ 匹配正浮点数。

-([1-9]\d*\.d*|0\.\d*[1-9]\d*)$匹配负浮点数。

-?(1-9]\d*\.d*|0\.\d*[1-9]\d*|0?\.0+|0)$ 匹配浮点数。

[1-9]\d*\.d*|0\.\d*[1-9]\d*|0?\.0+|0$ /匹配非负浮点数（正浮点数 + 0）

(-(1-9]\d*\.d*|0\.\d*[1-9]\d*))0?\.0+|0$ /匹配非正浮点数（负浮点数 + 0）

评注：处理大量数据时有用，具体应用时注意修正。

匹配特定字符串：

[a-za-z]+$匹配由26个英文字母组成的字符串。

[a-z]+$匹配由26个英文字母的大写组成的字符串。

[a-z]+$匹配由26个英文字母的小写组成的字符串。

[a-za-z0-9]+$匹配由数字和26个英文字母组成的字符串。

\w+$ 匹配由数字、26个英文字母或者下划线组成的字符串。

表达式全集。

正则表达式有多种不同的风格。下表是在pcre中元字符及其在正则表达式上下文中的行为的一个完整列表：

以下是以php的语法所写的示例

验证字符串是否只含数字与英文，字符串长度并在4~16个字符之间

str = a1234';

if (preg_match("^a-za-z0-9]$"str)) str)) comfirm" :failed";

print $str = a1234" =m"^\w[12]\d$" comfirm" :invaild";

如何写出高效率的正则表达式。

如果纯粹是为了挑战自己的正则水平，用来实现一些特效（例如使用正则表达式计算质数、解线性方程），效率不是问题；如果所写的正则表达式只是为了满足一两次、几十次的运行，优化与否区别也不太大。但是，如果所写的正则表达式会百万次、千万次地运行，效率就是很大的问题了。我这里总结了几条提升正则表达式运行效率的经验（工作中学到的，看书学来的，自己的体会），贴在这里。

如果您有其它的经验而这里没有提及，欢迎赐教。

为行文方便，先定义两个概念。

误匹配：指正则表达式所匹配的内容范围超出了所需要范围，有些文本明明不符合要求，但是被所写的正则式“击中了”。例如，如果使用\d来匹配11位的手机号，\d不单能匹配正确的手机号，它还会匹配***这样的明显不是手机号的字符串。

我们把这样的匹配称之为误匹配。

漏匹配：指正则表达式所匹配的内容所规定的范围太狭窄，有些文本确实是所需要的，但是所写的正则没有将这种情况囊括在内。例如，使用\d来匹配18位的身份证号码，就会漏掉结尾是字母x的情况。

写出一条正则表达式，既可能只出现误匹配（条件写得极宽松，其范围大于目标文本），也可能只出现漏匹配（只描述了目标文本中多种情况种的一种），还可能既有误匹配又有漏匹配。例如，使用\w+\.com来匹配。

com结尾的域名，既会误匹配abc_.com这样的字串（合法的域名中不含下划线，\w包含了下划线这种情况），又会漏掉这样的域名（合法域名中可以含中划线，但是\w不匹配中划线）。

精准的正则表达式意味着既无误匹配且无漏匹配。当然，现实中存在这样的情况：只能看到有限数量的文本，根据这些文本写规则，但是这些规则将会用到海量的文本中。

这种情况下，尽可能地（如果不是完全地）消除误匹配以及漏匹配，并提升运行效率，就是我们的目标。本文所提出的经验，主要是针对这种情况。

掌握语法细节。正则表达式在各种语言中，其语法大致相同，细节各有千秋。明确所使用语言的正则的语法的细节，是写出正确、高效正则表达式的基础。

例如，perl中与\w等效的匹配范围是[a-za-z0-9_]；perl正则式不支持肯定逆序环视中使用可变的重复（variable repetition inside lookbehind，例如(?

先粗后精，先加后减。使用正则表达式语法对于目标文本进行描述和界定，可以像画素描一样，先大致勾勒出框架，再逐步在局步实现细节。仍举刚才的手机号的例子，先界定\d，总不会错；再细化为1[358]\d，就向前迈了一大步（至于第二位是不是，这里无意深究，只举这样一个例子，说明逐步细化的过程）。

这样做的目的是先消除漏匹配（刚开始先尽可能多地匹配，做加法），然后再一点一点地消除误匹配（做减法）。这样有先有后，在考虑时才不易出错，从而向“不误不漏”这个目标迈进。

常用正则表达式

常用正则表达式

常用正则表达式

常用正则表达式

其他用户还读了