正则表达式中的小写u修正符深刻理解

作者：袖梨 2022-06-25

先看一实例

代码如下

复制代码

<?php

$str = ‘【宏?E1-471G-53214G50Mnks】宏?（acer）E1-471G-53214G50Mnks 14英寸笔记本电脑（i5-3210M 4G 500G GT630M 1G独显 USB3.0 )黑色【行情报价价格评测】’;

$str2 = ‘维他奶原味豆奶250ml x6 X 3 组合装【品牌产地促销价格评论】’;

$str3 = ‘维他奶原味豆奶250ml x6 X 3 组合装【行情报价价格评测】’;

echo preg_replace(‘/(【[^】]*】)/’, ”, $str),’

’;

echo preg_replace(‘/(【[^】]*】)/’, ”, $str2),’

’;

echo preg_replace(‘/(【[^】]*】)/’, ”, $str3);

各位看官，把上面代码跑下看看结果。。。

是不是觉得很奇怪，为什么1,3都能匹配到，就是$str2匹配不了。。。

在测试的时候，我就发现一个问题，就是你把$str2【】里的内容换成子母或者数字，就可以匹配到。。。当时我就想是不是字符的问题。。。但是还没有一个深刻的认识，今天在论坛请教一下，有一位高手解开了这个谜底。。。

你不在pattern后面加u修饰的话，正则表达式似乎是按单字节字符解释的，这样的话
[^】]的意思就是匹配xe3，x80，x91以外的字符，而第二组中间刚好有个x80，就不能匹配了

以下是$str2的编码情况。

>>> ‘维他奶原味豆奶250ml x6 X 3 组合装【品牌产地促销价格评论】’.decode(‘gb2
312′).encode(‘utf8′)
‘xe7xbbxb4xe4xbbx96xe5xa5xb6 xe5x8ex9fxe5x91xb3xe8xb1x86xe5x
a5xb6250ml x6 X 3 xe7xbbx84xe5x90x88xe8xa3x85xe3x80x90xe5x93x81
xe7x89x8c xe4xbaxa7xe5x9cxb0 xe4xbfx83xe9x94x80xe4xbbxb7xe6x
a0xbc xe8xafx84xe8xaexbaxe3x80x91‘

我们再来对比下$str3的编码情况。

>>> ‘维他奶原味豆奶250ml x6 X 3 组合装【行情报价价格评测】’.decode(‘gb2312′).encode(‘utf8′)
‘xe7xbbxb4xe4xbbx96xe5xa5xb6 xe5x8ex9fxe5x91xb3xe8xb1x86xe5x
a5xb6250ml x6 X 3 xe7xbbx84xe5x90x88xe8xa3x85xe3x80x90xe8xa1x8c
xe6x83x85 xe6x8axa5xe4xbbxb7 xe4xbbxb7xe6xa0xbc xe8xafx84xe6x
b5x8bxe3x80x91‘
>>>

看到红色标记的区别了吗？？？这就是为什么那么匹配中文，或者全角字符的表达式里都需要用小写u作为修正符。。。之前只是知道有这么一回事，但是真正算是理解的，就是这次了。。。

所以，只要把表达式改为：preg_replace(‘/(【[^】]*】)/u’, ”, $str2) 即可匹配成功