我编写了一个脚本,该脚本将通过我们的数据库中的所有客户,验证他们的网站URL是否有效,并尝试在其主页上找到一个Twitter链接。我们有10,000多个URL可以验证。如果验证了URL的一小部分之后,我们开始为每个URL遇到getAddrinfo错误。
这是刮擦单个URL的代码的副本:
def scrape_url(url)
url_found = false
twitter_name = nil
begin
agent = Mechanize.new do |a|
a.follow_meta_refresh = true
end
agent.get(normalize_url(url)) do |page|
url_found = true
twitter_name = find_twitter_name(page)
end
@err << "[#{@current_record}] SUCCESSn"
rescue Exception => e
@err << "[#{@current_record}] ERROR (#{url}): "
@err << e.message
@err << "n"
end
[url_found, twitter_name]
end
注意:我还运行了此代码的一个版本,该版本创建了一个单个机械化实例,该实例在所有调用scrape_url中共享。它以完全相同的方式失败。
当我在EC2上运行它时,它几乎完全通过1,000个URL,然后返回剩下的9,000 :
的此错误getaddrinfo: Temporary failure in name resolution
注意,我尝试使用Amazon的DNS服务器和Google的DNS服务器,认为这可能是一个合法的DNS问题。在两种情况下,我都得到了完全相同的结果。
然后,我尝试在本地MacBook Pro上运行它。在其余记录中返回此错误之前,它只能通过大约250次:
getaddrinfo: nodename nor servname provided, or not known
有人知道我如何获得脚本以通过所有记录制作脚本?
我找到了解决方案。机械化正在使连接打开,并依靠GC清理它们。一定的一点之后,有足够的开放连接,无法建立其他出站连接来进行DNS查找。这是导致其工作的代码:
agent = Mechanize.new do |a|
a.follow_meta_refresh = true
a.keep_alive = false
end
通过将keep_alive设置为false,该连接立即关闭并清理。
查看这是否有帮助:
agent.history.max_size = 10
它将阻止历史记忆过多