php中strlen,mb_strlen,substr(),mb_substr()及mb_strcut的区别

作者：袖梨 2022-06-24

关于mb_*的字符串分割函数使用：
在win下的配置
需要按装php_mbstring.dll扩展
需要在php.ini在把php_mbstring.dll打开
linux下的配置可以在网上搜索一下也很简单

代码如下	复制代码
<?php //测试时文件的编码方式要是UTF8 $str='中文a字1符'; echo strlen($str).' ';//14 echo mb_strlen($str,'utf8').' ';//6 echo mb_strlen($str,'gbk').' ';//8 echo mb_strlen($str,'gb2312').' ';//10 ?>

结果分析：在strlen计算时，对待一个UTF8的中文字符是3个长度，所以“中文a字1符”长度是3*4+2=14,在mb_strlen计算时，选定内码为UTF8，则会将一个中文字符当作长度1来计算，所以“中文a字1符”长度是6

mb_strlen 默认编码可以通过

mb_internal_encoding()获取到。

利用这两个函数则可以联合计算出一个中英文混排的串的占位是多少（一个中文字符的占位是2，英文字符是

1 echo (strlen($str) + mb_strlen($str,'UTF8')) / 2;

PHP内置的字符串长度函数strlen无法正确处理中文字符串，它得到的只是字符串所占的字节数。对于GB2312的中文编码，strlen得到的值是汉字个数的2倍，而对于UTF-8编码的中文，就是3倍的差异了（在 UTF-8编码下，一个汉字占3个字节）。

字符串分割
substr()函数可以分割文字，但要分割的文字如果包括中文字符往往会遇到问题，这时可以用mb_substr()/mb_strcut这个函数

mb_substr是按字来切分字符，而mb_strcut是按字节来切分字符，但是都不会产生半个字符的现象.

substr()函数可以分割文字，但要分割的文字如果包括中文字符往往会遇到问题，这时可以用mb_substr()/mb_strcut这个函数，mb_substr()/mb_strcut的用法与substr()相似，只是在mb_substr()/mb_strcut最后要加入多一个参数，以设定字符串的编码，但是一般的服务器都没打开php_mbstring.dll，需要在php.ini在把php_mbstring.dll打开。

举个例子：

代码如下	复制代码
<?php echo mb_substr('这样一来我的字符串就不会有乱码^_^', 0, 7, 'utf-8'); ?>

输出：这样一来我的字

代码如下	复制代码
<?php echo mb_strcut('这样一来我的字符串就不会有乱码^_^', 0, 7, 'utf-8'); ?>

输出：这样一
从上面的例子可以看出，mb_substr是按字来切分字符，而mb_strcut是按字节来切分字符，但是都不会产生半个字符的现象……

mbstring 函数的说明：

php的mbstring扩展模块提供了多字节字符的处理能力，平常最常用的就是用mbstring来切分多字节的中文字符，这样可以避免出现半个字符的情况，由于是php的扩展，它的性能也要比一些自定义的多字节切分函数要好上一些。

mbstring extension提供了几个功能类似的函数，mb_substr和mb_strcut，看看手册上对它们的解释。

mb_substr
mb_substr() returns the portion of str specified by the start and length parameters.

mb_substr() performs multi-byte safe substr() operation based on number of characters. Position is sqlserver/42852.htm target=_blank >counted from the beginning of str. First character's position is 0. Second character position is 1, and so on.

mb_strcut
mb_strcut() returns the portion of str specified by the start and length parameters.

mb_strcut() performs equivalent operation as mb_substr() with different method. If start position is multi-byte character's second byte or larger, it starts from first byte of multi-byte character.

It subtracts string from str that is shorter than length AND character that is not part of multi-byte string or not being middle of shift sequence.

再举个例子,有一段文字, 分别用mb_substr和mb_strcut来做切分:

PLAIN TEXT
CODE:

代码如下

复制代码

<?php
$str = '我是一串比较长的中文-';

echo "mb_substr:" . mb_substr($str, 0, 6, 'utf-8');

echo "
";

echo "mb_strcut:" . mb_strcut($str, 0, 6, 'utf-8');
?>

输出结果如下：

mb_substr:我是一串比较
mb_strcut:我是

测试代码:

代码如下

复制代码

/**
* 字符串分割按字分割
* @param $content string
* @param $length int
* @param $etc string
* @return string
*/
function Truncate($content, $length, $etc = '...') {

        if ($length == 0) {
            return '';
        } elseif (mb_strlen($content,'utf-8') > $length) {
            $length -= min($length, mb_strlen($etc));
            $charset = 'utf-8';
            $content = mb_substr($content, 0, $length, $charset) . $etc;
        }
        return $content;
    }

$str ='伏尔泰（1694～1778）法国资产阶级启蒙思想家，哲学家，史学家，文学家。伏尔泰原名F.M.阿鲁埃。';

echo strlen($str);//字符串长度
echo '

';
echo mb_strlen($str,'utf-8');//字符串长度
echo '

';
echo mb_strcut($str,0,35,'utf-8');//按字节分割
echo '

';
echo mb_substr($str,0,35,'utf-8');//按字分割
echo '

';
echo Truncate($str,35);//字符串截取方法