如何使 HtmlAgilityPack 停止自动删除 html 文件中单例标记的斜杠



我正在制作一个工具来翻译 .epub 文件的字符串。我尝试使用HtmlAgilityPack作为解决方案处理从epub文件解压缩的XHTML文件。

这是一个问题,HtmlAgilityPack会自动从没有结束标签的标签中删除斜杠。

尝试做一些研究,但不足以帮助我解决问题。

例如: 它最初在末尾带有斜杠。

<link href="style.css" rel="stylesheet" type="text/css" />

但是由于它加载到HtmlAgilityPack中,斜杠会自动删除。

<link href="style.css" rel="stylesheet" type="text/css">

我知道这两种情况在普通 html 页面中都有效,但在 epub 格式中似乎并不相同。EPUBcheck总是显示我致命的是斜杠删除。如果我只是忽略警告,它甚至无法被阅读。

我花了几个小时来解决问题,有人可以帮我一把吗?

谢谢。

在 HtmlDocument 上将 OptionWriteEmptyNodes 属性设置为 true。

string htmltext =File.ReadAllText("test.html");
HtmlDocument doc = new HtmlDocument();
doc.OptionWriteEmptyNodes = true;
doc.LoadHtml(htmltext);

参考这个https://html-agility-pack.net/knowledge-base/11047739/optionwriteemptynodes-break-xml-declaration-using-htmlagilitypack

相关内容

  • 没有找到相关文章

最新更新