在Android上解析HTML,主要的性能问题



我需要解析大约100 kB的HTML数据,这只会导致Android上的巨大性能问题。我已经尝试了内置的XML解析器和JTidy。

内置的XML解析器为我提供了大约半秒的解析时间,我可以很容易地接受。问题是,使用XML解析器解析杂乱的HTML代码不是一个好主意,因为这不是一种选择。(我尝试预处理,但它甚至开始抱怨有效的HTML,所以…)

我搜索了一下,建议使用JTidy在将代码传递给XML解析器之前对其进行清理。这绝对是一场噩梦,使用JTidy进行预处理解析现在大约需要7秒

所以现在我唯一的选择就是正则表达式。你觉得呢?

这取决于你是否是html的所有者。

如果(据我所知)你不是html数据的所有者,不能影响它的格式,那么你可能会发现这个信息很有用:但是如果html真的很糟糕,结果就不能保证了。您更喜欢使用正则表达式。即使浏览器在处理"坏"html时也会切换到quirks模式,而不能保证正确查看。

相关内容

  • 没有找到相关文章

最新更新