我正在尝试使用一个用于关键字密度的脚本。除了外国字母(无论是瑞典语、爱沙尼亚语还是其他任何字母(外,一切都正常。
$file包含文本。
问题出在这里:
$testsource = explode(" ", $file); // This has no problems with non-english letters
数组中的第一个单词:"Mängi">
$source = preg_split("/[(bW+b)]/", $file, 0, PREG_SPLIT_NO_EMPTY); // This removes the non-english letter sometimes and also a letter in front of it
数组中的第一个字:"ngi">
如果是这个特定的单词,问题似乎是"ä"字符(如果是其他单词,则是其他非英语字符(,因为我当前的preg_split删除了单词开头的"Mä"。没有特殊字符的单词也可以。
问题:我可以在preg_split中添加什么以避免出现问题?
啊,没关系,答案是将preg_split行更改为以下行:
$source = preg_split("/[(b+b)s!@#$%*]/", $file, 0, PREG_SPLIT_NO_EMPTY);