我尝试了很多URL,它们似乎都很好,直到我遇到这个特殊的URL:
require 'rubygems'
require 'nokogiri'
require 'open-uri'
doc = Nokogiri::HTML(open("http://www.moxyst.com/fashion/men-clothing/underwear.html"))
puts doc
这就是结果:
/Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:353:in `open_http': 404 Not Found (OpenURI::HTTPError)
from /Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:709:in `buffer_open'
from /Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:210:in `block in open_loop'
from /Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:208:in `catch'
from /Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:208:in `open_loop'
from /Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:149:in `open_uri'
from /Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:689:in `open'
from /Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:34:in `open'
from test.rb:5:in `<main>'
我可以从网络浏览器访问这个,但我根本不明白。
发生了什么,我该如何处理这种错误?我可以忽略它,让其他人做他们的工作吗?
您得到的是404 Not Found (OpenURI::HTTPError)
,因此,如果您想让代码继续运行,请为该异常进行救援。像这样的东西应该起作用:
require 'nokogiri'
require 'open-uri'
URLS = %w[
http://www.moxyst.com/fashion/men-clothing/underwear.html
]
URLs.each do |url|
begin
doc = Nokogiri::HTML(open(url))
rescue OpenURI::HTTPError => e
puts "Can't access #{ url }"
puts e.message
puts
next
end
puts doc.to_html
end
您可以使用更通用的异常,但在获得奇怪的输出时会遇到问题,或者可能会以导致更多问题的方式处理不相关的问题,因此您需要确定所需的粒度。
如果您想要更多的控制并想为401或404做一些不同的事情,您甚至可以探查HTTPd标头、响应的状态,或者查看异常消息。
我可以从网络浏览器访问这个,但我根本不明白。
好吧,这可能是服务器端发生的事情:也许他们不喜欢你发送的UserAgent字符串?OpenURI文档展示了如何更改标题:
可以通过可选的哈希参数指定其他头字段。
open("http://www.ruby-lang.org/en/", "User-Agent" => "Ruby/#{RUBY_VERSION}", "From" => "foo@bar.invalid", "Referer" => "http://www.ruby-lang.org/") {|f| # ... }
您可能需要将"User Agent"作为参数传递给打开方法。有些网站需要有效的用户代理,否则他们根本不响应或显示404未找到错误。
doc = Nokogiri::HTML(open("http://www.moxyst.com/fashion/men-clothing/underwear.html", "User-Agent" => "MyCrawlerName (http://mycrawler-url.com)"))
那么发生了什么,我该如何处理这种错误呢。
不知道发生了什么,但你可以通过捕捉错误来处理它。
begin
doc = Nokogiri::HTML(open("http://www.moxyst.com/fashion/men-clothing/underwear.html"))
puts doc
rescue => e
puts "I failed: #{e}"
end
我可以忽略它,让其他人做他们的工作吗?
当然!大概不确定。我们不知道您的要求。