如何通过CSS类获取所有元素



我正在尝试使用Nokogiri抓取此页面以获得类名称为"teaser"的所有元素。

如果我用jQuery检查页面,我可以看到有25个元素:

$(".teaser").length => 25

然而,当使用Nokogiri时,我只得到第一个预告片:

teasers = doc.css('.teaser')
teasers.count => 1

我哪里错了?我怎么拿到所有的预告片?

由于某种原因,该文档中似乎有一个空字节负载,这导致Nokogiri/LibXML认为文档已经完成了一部分。

您应该能够通过预处理内容来删除空值来修复它。如果page包含网页的文本:

page.gsub! /x00/, ''

然后像以前一样在page上使用Nokogiri

相关内容

  • 没有找到相关文章

最新更新