我目前正在使用以下代码匹配HTML:
preg_match('/</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;/u', $html, $match, PREG_OFFSET_CAPTURE, $position)
它匹配所有完美的东西,但是如果我有一个多字节的字符,在返回位置时,它会将其计算为2个字符。
例如,返回的$match
数组会给出以下内容:
array
0 =>
array
0 => string '<br />' (length=6)
1 => int 132
1 =>
array
0 => string 'br' (length=2)
1 => int 133
<br />
匹配的实数是128,但有4个多字节字符,所以它给出132。我真的以为添加/u修饰符会让它意识到发生了什么,但运气不好。
我看了@Qtax:的这个建议
preg_match_all(PHP)中的UTF-8字符
为了更多的参考,这个bug在使用时出现了:截断包含HTML的文本,忽略标记
改变的要点是:
$orig_utf = 'UTF-8';
$new_utf = 'UTF-32';
mb_regex_encoding( $new_utf );
$html = mb_convert_encoding( $html, $new_utf, $orig_utf );
$end_char = mb_convert_encoding( $end_char, $new_utf, $orig_utf );
mb_ereg_search_init( $html );
$pattern = '</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;';
$pattern = mb_convert_encoding( $pattern, $new_utf, $orig_utf );
while ( $printed < $limit && $tag_match = mb_ereg_search_pos( $pattern, $html ) ) {
$tag_position = $tag_match[0]/4;
$tag_length = $tag_match[1];
$tag = mb_substr( $html, $tag_position, $tag_length/4, $new_utf );
$tag_name = preg_replace( '/[s<>/]+/', '', $tag );
// Print text leading up to the tag.
$str = mb_substr($html, $position, $tag_position - $position, $new_utf );
.......
}
此外,关于截断HTML页面,还有其他必要的更改:
$first_char = mb_substr( $tag, 0, 1, $new_utf );
if ( $first_char == mb_convert_encoding( '&', $new_utf ) ) {
...
}
我的文本编辑器是UTF-8,所以如果我将32与文件的"与"符号进行比较,它就不会起作用。
如果您需要快速修复并且不关心速度:
$mb_pos = mb_strlen( substr($string, 0, $pos) );
您有没有调查过http://www.php.net/manual/en/function.mb-ereg.php?