Python的XML处理模块文档列出了其XML处理模块中的漏洞。我认为html5lib不容易受到恶意输入,因为它遵循HTML5规范(未知的bug除外),但我讨厌做假设,我找不到潜在的安全问题的讨论。
那么有什么安全问题是我应该注意的吗?或者使用它来解析恶意构建的html是否安全?
简短的回答是否定的(至少任何人都知道)——XML攻击利用了HTML中不存在的XML"特性"。(从技术上讲,"解压缩炸弹"几乎适用于任何格式,并不是对XML的真正攻击——它们是对解压缩器的攻击。)