我正在尝试使用 Nokogiri 解析 http://www.pro-medic.ru/index.php?ht=246&perpage=all,但不幸的是我无法从页面中获取所有项目。
我的简单测试代码是:
require 'open-uri'
require 'nokogiri'
html = Nokogiri::HTML open('http://www.pro-medic.ru/index.php?ht=246&perpage=all')
p html.css('ul.products-grid-compact li .goods_container').count
它只返回 83 个项目,但实际计数约为 186。
我认为问题可能出在open
,但似乎该函数正确读取了 HTML 页面。
有没有人遇到过同样的问题?
该文件似乎超出了Nokogiri的解析器限制。您可以通过添加 HUGE
标志来放宽限制:
require 'open-uri'
require 'nokogiri'
url = 'http://www.pro-medic.ru/index.php?ht=246&perpage=all'
html = Nokogiri::HTML(open(url)) do |config|
config.options |= Nokogiri::XML::ParseOptions::HUGE
end
html.css('ul.products-grid-compact li .goods_container').count
#=> 186
请注意,|=
是按位 OR 赋值运算符,请不要将其与逻辑运算符混淆||=
根据解析选项,您还可以通过config.huge
设置此标志