在 rails 中抓取数据时获取 href 页面中的内容



我想从网站抓取数据。在这个网站上:

.HTML:

<div>
 <ul>
  <li><a href="http://.../place1">Place1</a></li>
  <li><a href="http://.../place2">Place2</a></li>
 </ul>
</div>

在 "http://.../place1" 中:

<div>
 <p>Place 1</p>
 <img src="...">
<div>

如何使用"Nokogiri"gem 对 href 中的数据进行爬网?(点击时其他页面的数据(

当我研究时,我只找到在页面中抓取数据的方法。找不到如何在 href 页面内抓取数据。谢谢

为了对 href 中的数据进行爬网,您必须创建一个新请求来对其中的数据进行爬网。

...
# require 'open-uri'
href = 'http://.../place1'
doc = Nokogiri::HTML(open(href))
...

您可以通过.css方法获取所有链接。然后你可以像这样爬过去

# require 'open-uri'
links = doc.css('a').map { |link| link['href'] }
links.each do |link|
  doc = Nokogiri::HTML(open(link))
end

相关内容

  • 没有找到相关文章

最新更新