如果我从Wordpress导出文章,我会得到一个大文件,第一行是
<?xml version="1.0" encoding="UTF-8" ?>
和一些像这样的行:
<title>Sin título – Test Site</title>
是西班牙语,引用í字符。文本编辑器说这是一个utf-8编码的文件。当我试图检查xml语法。说
对未定义实体的引用
如何解决这个语法错误?由于
这是一个HTML实体。https://www.w3schools.com/charsets/ref_html_entities_i.asp
浏览器知道这个实体是什么,但是XML解析器不知道。
您可以添加一个DTD引用,指向定义了所有HTML实体的HTML DTD:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">