Node.js上的html解析器



在nodejs上是否有类似Ruby的nokogiri的东西?我指的是一个用户友好的html解析器。

我在Node.js模块页面上看到过一些解析器,但我找不到一些漂亮和新鲜的东西。

如果你想构建DOM,你可以使用jsdom。

还有cheerio,它有jQuery接口,比旧版本的jQuery快得多,尽管现在它们在性能上差不多。

你可能想看看htmlparser2,这是一个流解析器,根据它的基准测试,它似乎比其他的更快,默认情况下没有DOM。它还可以生成DOM,因为它还与创建DOM的处理程序捆绑在一起。这是cheerio使用的解析器。

parse5看起来也是一个很好的解决方案。它相当活跃(距离上次提交已有11天了),兼容whatwg,并且在dom、Angular和Polymer中都有使用。

如果你试图抓取的网站是动态的,那么你应该使用像phantomjs这样的无头浏览器。如果您正在考虑使用phantomjs,也可以看看casperjs。你可以用SpookyJS从node控制casperjs。

在幻影旁边有僵尸。与不能嵌入nodejs的phantomjs不同,zombiejs只是一个节点模块。

后一种解决方案有nettuts+教程

试试https://github.com/tmpvar/jsdom -你给它一些HTML,它会给你一个DOM

您也可以看看x射线:https://github.com/lapwinglabs/x-ray

相关内容

  • 没有找到相关文章

最新更新