在 Ruby 中使用 Watir/Nokogiri 解析网页



我正在尝试解析以下网站以获取弹出框中包含的纬度和经度,但似乎无法使其工作。我在 Ruby 中使用 Watir 和 Nokogiri。代码如下:

require 'watir'
require 'nokogiri'
require 'win32ole'
require 'open-uri'
# Get filename from user
puts "What is the name of the excel file?"
file_name1 = gets.chomp
file_name2 = file_name1 << '.xlsx'
# WIN32OLE
excel = WIN32OLE::new('excel.Application')
excel.visible = true
filepath = excel.Workbooks.Open('C:/users/desktop/ruby/' << file_name2)
url = 'http://webapps2.rrc.state.tx.us/EWA/drillingPermitsQueryAction.do'
# Excel Column Headers
excel.worksheets(2).Cells(1,12).value = "Latitude"
excel.worksheets(2).Cells(1,13).value = "Longitude"
# Watir
browser = Watir::Browser.new  # opens new IE browser
browser.speed = :zippy
browser.goto url  # goes to RRC page
row = 2
while excel.worksheets(2).Cells(row,5).value.nil? == false
browser.text_field(:name, 'searchArgs.apiNoHndlr.inputValue').set excel.worksheets(2).Cells(row,5).value.to_s[0..7]
    browser.button(:value, 'Submit').click   # Clicks the submit button
    browser.select_list(:name, "propertyValue").select 'GIS Viewer'
    page_html = Nokogiri::HTML.parse(browser.html)
    latitude = page_html.css("#printIdentifyWellDiv > table:nth-child(5) > tbody > tr:nth-child(7) > td").text.strip
    longitude = page_html.css("#printIdentifyWellDiv > table:nth-child(5) > tbody > tr:nth-child(8) > td").text.strip
    excel.worksheets(2).Cells(row,12).value = latitude
    excel.worksheets(2).Cells(row,13).value = longitude
    browser.window(:title => "RRC Public GIS Viewer").use do
        browser.button(:id => "close").click
    end
    browser.button(:value, 'Return').click
    row += 1
end
puts "Complete"

问题出在第 34 行和第 35 行(纬度和经度变量)。Nokogiri 似乎无法从弹出窗口中解析它们并将它们移动到 Excel 文件中。我尝试过使用Xpath和CSS路径,但没有成功。每次我运行程序时,相应的Excel文件在纬度和经度列中都是空白的。

问题:

  1. 如何解析数据?
  2. 当我的程序运行时,上面链接的地图屏幕会在浏览器的第二个选项卡中显示。

这对瓦蒂尔/诺科吉里来说是个问题吗?我是否需要以某种方式在程序中选择该选项卡才能解析它?

谢谢你的时间。

打开弹出窗口

后,您必须告诉watir使用弹出窗口,否则浏览器.html仍将来自主窗口。

移动此行:

browser.window(:title => "RRC Public GIS Viewer").use do

在浏览器之前.html调用

相关内容

  • 没有找到相关文章

最新更新