我想从网站抓取数据。在这个网站上:
.HTML:
<div>
<ul>
<li><a href="http://.../place1">Place1</a></li>
<li><a href="http://.../place2">Place2</a></li>
</ul>
</div>
在 "http://.../place1" 中:
<div>
<p>Place 1</p>
<img src="...">
<div>
如何使用"Nokogiri"gem 对 href 中的数据进行爬网?(点击时其他页面的数据(
当我研究时,我只找到在页面中抓取数据的方法。找不到如何在 href 页面内抓取数据。谢谢
为了对 href 中的数据进行爬网,您必须创建一个新请求来对其中的数据进行爬网。
...
# require 'open-uri'
href = 'http://.../place1'
doc = Nokogiri::HTML(open(href))
...
您可以通过.css
方法获取所有链接。然后你可以像这样爬过去
# require 'open-uri'
links = doc.css('a').map { |link| link['href'] }
links.each do |link|
doc = Nokogiri::HTML(open(link))
end