我正在制作一个工具来翻译 .epub 文件的字符串。我尝试使用HtmlAgilityPack作为解决方案处理从epub文件解压缩的XHTML文件。
这是一个问题,HtmlAgilityPack会自动从没有结束标签的标签中删除斜杠。
我尝试做一些研究,但不足以帮助我解决问题。
例如: 它最初在末尾带有斜杠。
<link href="style.css" rel="stylesheet" type="text/css" />
但是由于它加载到HtmlAgilityPack中,斜杠会自动删除。
<link href="style.css" rel="stylesheet" type="text/css">
我知道这两种情况在普通 html 页面中都有效,但在 epub 格式中似乎并不相同。EPUBcheck总是显示我致命的是斜杠删除。如果我只是忽略警告,它甚至无法被阅读。
我花了几个小时来解决问题,有人可以帮我一把吗?
谢谢。
在 HtmlDocument 上将 OptionWriteEmptyNodes 属性设置为 true。
string htmltext =File.ReadAllText("test.html");
HtmlDocument doc = new HtmlDocument();
doc.OptionWriteEmptyNodes = true;
doc.LoadHtml(htmltext);
参考这个https://html-agility-pack.net/knowledge-base/11047739/optionwriteemptynodes-break-xml-declaration-using-htmlagilitypack