我应该使用什么html解析器



我正在开发一个需要解析HTML文档的产品。我找了杰里科,汤,汤和克劳利4J。当我需要在使用quartz的多线程环境中运行这个过程时,我应该使用哪个解析器来解析HTML?

每次如果10个线程在内存中运行,那么我需要一个API,它消耗的内存更少。在jericho中,我在某个地方读到它是基于文本的搜索API,消耗的内存更少。我说得对吗?或者我应该选择其他,为什么?

测试它们并检查它们的内存占用情况。在不了解和测试要解析的HTML的情况下,很难对内存配置文件进行预测。

FFIW,我在许多不同的系统中使用过Jsoup,我发现它运行得非常好。我也从来没有注意到它有任何严重的记忆问题。

我正在使用JSoup,给我留下了深刻印象。它的解析速度非常快,而且它的CSS风格的内容模式匹配比XPath更容易维护。

我首先尝试了Validator.nu的解析器,发现它非常缺乏。文档非常单薄,我无法让它正确执行在Chrome中运行良好的XPaths。

另外,看看这个问题:哪个HTML解析器是最好的?

相关内容

  • 没有找到相关文章