« 上一篇 SEO行业【谷歌蜘蛛名称大全】绝对不仅仅只是你知道的Googlebot 下一篇 »

PHP正则表达式匹配所有中文汉字内容

大多数SEO一般不会用到正则表达式,除了在为网站写伪静态规时。不过,如果你的网站要自动处理大量内容,可能最简单正则使用尚无法满足你的需要。今天,祥子在测试内容抓取并是进行文字处理时,需要过滤所有带有汉字的行,所以就有了这个:

匹配所有带有中文字符的行(即有汉字的行 ),实测正确的正则表达式为:(.*)[^\x00-\xff](.*)

另外几句常用正式分享:

\w匹配的仅仅是中文,数字,字母,对于国人来讲,仅匹配中文时常会用到,见下

匹配中文字符的正则表达式: [\u4e00-\u9fa5]

或许你也需要匹配双字节字符,中文也是双字节的字符

匹配双字节字符(包括汉字在内):[^\x00-\xff]

注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)

更多常用正则表达式匹配规则:

英文字母:[a-zA-Z]

数字:[0-9]

匹配中文,英文字母和数字及_:

^[\u4e00-\u9fa5_a-zA-Z0-9]+$

同时判断输入长度:

[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10}

^[\w\u4E00-\u9FA5\uF900-\uFA2D]*$

一个正则表达式,只含有汉字、数字、字母、下划线不能以下划线开头和结尾:

^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$