我正在IMDB中使用这个抓取工具,问题是某些字符在UNICODE ï
中。 我将这个抓取器与 CURL 一起使用,答案是用 UTF8 编码的字符串 我尝试用 mb_detect_encoding(( 获取字符串的编码,它用 UTF-8 回答
$html = $this->geturl("${imdbUrl}combined");
mb_detect_encoding($html);
所以我有一个字符串,里面有一些十六进制值,例如:
$var = 'Saïd Taghmaoui'
所以我尝试用 utf8_decode(( 获得 $html 的值,但没有运气,我在 HEX 中仍然有一些字符。
所以我有几个问题:
1-最好的解决方案是什么?我想象不同的场景,例如读取字符串并使用 REGEX 更改所有带有字符的十六进制代码,但我不确定这是否是最佳解决方案,而且我不知道如何为此创建 REGEX。
2-解决方案可以通过cURL吗?我的意思是管理一些配置以设置 UTF-8 格式的 cURL 编码?
我尝试使用recode_string或图标或mb_convert_encoding的功能
好吧,基本上我的问题是刮板的答案带有 UTF-8 编码,但在打印文本之前,我需要使用此函数处理数据
$var = 'Saïd Taghmaoui'
htmlspecialchars(html_entity_decode($var, ENT_QUOTES, 'UTF-8'), ENT_NOQUOTES, 'UTF-8');