Ruby Nokogiri 抓取数据网址



这就是我想要的eng_tid的id。 那么我应该怎么做才能获得这个ID代码

<a data-gt="{"engagement":{"eng_type":"1","eng_src":"2","eng_tid":"100016034050254","eng_data":[]}}" href="https://www.facebook.com/thokchom.tombung?fref=pb&amp;hc_location=profile_browser" data-hovercard="/ajax/hovercard/user.php?id=100016034050254&amp;extragetparams=%7B%22hc_location%22%3A%22profile_browser%22%7D" data-hovercard-prefer-more-content-show="1">Thokchom Tombung</a>
require 'open-uri'
require 'nokogiri'
require 'json'
require 'csv'
page = Nokogiri::HTML(open("index.html"))
links = page.css('li._5i_q').css("a[data-gt]").children.map {|name| name.text }
puts links
CSV.open('fileId.csv', 'w') do |csv|
csv << links
end

通过这两行,您可以从data-hovercardid参数中获取eng_tid

page = Nokogiri::HTML(open(Rails.root + "app/views/home/index.html"))
@id = page.css("a").map {|element| element["data-hovercard"][/id=([^&]*)/].gsub('id=', '')} 

这是 github 示例 ruby on rails Web 项目,它将在索引页面上显示提取的 url 编号:https://github.com/nezirz/nokogiri_stackoverflow_answer

因此,您需要将此项目克隆到您的 pcgit clone git@github.com:nezirz/nokogiri_stackoverflow_answer.git并在项目文件夹bundle install中运行,最后rails s,您将在网站上看到请求的编号,因此您可以使用此代码作为示例并根据需要对其进行管理。

相关内容

  • 没有找到相关文章

最新更新