获取 UNICODE 字符而不是 HEX - cURL PHP



我正在IMDB中使用这个抓取工具,问题是某些字符在UNICODE ï中。 我将这个抓取器与 CURL 一起使用,答案是用 UTF8 编码的字符串 我尝试用 mb_detect_encoding(( 获取字符串的编码,它用 UTF-8 回答

$html = $this->geturl("${imdbUrl}combined");
mb_detect_encoding($html);

所以我有一个字符串,里面有一些十六进制值,例如:

$var = 'Saïd Taghmaoui'

所以我尝试用 utf8_decode(( 获得 $html 的值,但没有运气,我在 HEX 中仍然有一些字符。

所以我有几个问题:

1-最好的解决方案是什么?我想象不同的场景,例如读取字符串并使用 REGEX 更改所有带有字符的十六进制代码,但我不确定这是否是最佳解决方案,而且我不知道如何为此创建 REGEX。

2-解决方案可以通过cURL吗?我的意思是管理一些配置以设置 UTF-8 格式的 cURL 编码?

我尝试使用recode_string图标mb_convert_encoding的功能

好吧,基本上我的问题是刮板的答案带有 UTF-8 编码,但在打印文本之前,我需要使用此函数处理数据

$var = 'Saïd Taghmaoui'
htmlspecialchars(html_entity_decode($var, ENT_QUOTES, 'UTF-8'), ENT_NOQUOTES, 'UTF-8');

相关内容

  • 没有找到相关文章

最新更新