从html字符串中删除无效/不正确放置的标签



我想知道是否有一种很好的(或足够好的)方法来从c#中的HTML字符串中删除无效或错误放置的HTML标签?

例1:将<div> </div> </div>修改为<div> </div>
例2:将<div> </section> </div>改为<div> </div>

基本上,转换后的html字符串应该是W3C验证的标记。我知道这可能有点困难,也许有一个图书馆可以很好地完成这项工作?

谢谢!

我推荐使用HTMLTidy。

因为你在使用c#,所以有一个tidy.net项目。我认为有一些dll可以在你的c#代码中引用和使用。

或者,您可以直接使用HTMLTidy的命令行内容。

我最终修复了生成无效HTML字符串的根本问题。在这种情况下,解决主要问题(如果可能)比解决症状要好得多。

最新更新