从wordpress导出的xml字符编码



如果我从Wordpress导出文章,我会得到一个大文件,第一行是

<?xml version="1.0" encoding="UTF-8" ?>

和一些像这样的行:

<title>Sin t&iacute;tulo – Test Site</title>

是西班牙语,引用í字符。文本编辑器说这是一个utf-8编码的文件。当我试图检查xml语法。说

对未定义实体的引用

如何解决这个语法错误?由于

这是一个HTML实体。https://www.w3schools.com/charsets/ref_html_entities_i.asp

浏览器知道这个实体是什么,但是XML解析器不知道。

您可以添加一个DTD引用,指向定义了所有HTML实体的HTML DTD:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">