我正在尝试使用Nokogiri抓取此页面以获得类名称为"teaser"的所有元素。
如果我用jQuery检查页面,我可以看到有25个元素:
$(".teaser").length => 25
然而,当使用Nokogiri时,我只得到第一个预告片:
teasers = doc.css('.teaser')
teasers.count => 1
我哪里错了?我怎么拿到所有的预告片?
由于某种原因,该文档中似乎有一个空字节负载,这导致Nokogiri/LibXML认为文档已经完成了一部分。
您应该能够通过预处理内容来删除空值来修复它。如果page
包含网页的文本:
page.gsub! /x00/, ''
然后像以前一样在page
上使用Nokogiri