使用File::Slurp读取UTF8文件



我尝试用Perl模块file::Slurp:

读取HTML文件
binmode STDOUT, ':utf8';
my $htmlcontent = read_file($file, {binmode => ':utf8'});

但是当我打印$htmlcontent变量时,由于法语重音或特殊字符,一些字符无法理解。

例如:"Plus d'actualitu00e9s"应为"Plus d'actualités"

我也检查了文件的编码,它是好的!

HTML document, UTF-8 Unicode text, with very long lines, with CRLF, LF line terminators

这个模块有问题吗?

谢谢

u00e9不是UTF-8字符,是JavaScript表示的Unicode字符。您需要使用Encode::JavaScript::UCS解码文件内容,例如

最新更新