更正绿绿灯终止

我正在使用gevent下载一些html页面。有些网站速度太慢，有些网站在一段时间后停止提供请求。这就是为什么我必须限制一组请求的总时间。为此，我使用gevent"超时"。

timeout = Timeout(10)
timeout.start()
def downloadSite():
    # code to download site's url one by one
    url1 = downloadUrl()
    url2 = downloadUrl()
    url3 = downloadUrl()
try:
    gevent.spawn(downloadSite).join()
except Timeout:
    print 'Lost state here'

但它的问题是，当异常触发时，我会释放所有状态。

想象一下，我抓取了网站"www.test.com"。在网站管理员决定切换网络服务器进行维护之前，我已经下载了10个URL。在这种情况下，当异常启动时，我将丢失有关已爬网页面的信息。

问题是，即使发生超时，我如何保存状态和处理数据？

为什么不试试类似的东西：

timeout = Timeout(10)
def downloadSite(url):
    with Timeout(10):
        downloadUrl(url)
urls = ["url1", "url2", "url3"]
workers = []
limit = 5
counter = 0
for i in urls:
    # limit to 5 URL requests at a time
    if counter < limit:
        workers.append(gevent.spawn(downloadSite, i))
        counter += 1
    else:
        gevent.joinall(workers)
        workers = [i,]
        counter = 0
gevent.joinall(workers)

您还可以将每个URL的状态保存在dict或其他内容中，或者将失败的URL附加到不同的数组中，以便稍后重试。

一个自包含的示例：

import gevent
from gevent import monkey
from gevent import Timeout
gevent.monkey.patch_all()
import urllib2
def get_source(url):
    req = urllib2.Request(url)
    data = None
    with Timeout(2):
        response = urllib2.urlopen(req)
        data = response.read()
    return data
N = 10
urls = ['http://google.com' for _ in xrange(N)]
getlets = [gevent.spawn(get_source, url) for url in urls]
gevent.joinall(getlets)
contents = [g.get() for g in getlets]
print contents[5]

它为每个请求实现一个超时。在本例中，contents包含的HTML源代码是google.com的10倍，每个源代码都在一个独立的请求中检索。如果其中一个请求超时，则contents中的相应元素将是None。如果您对此代码有任何疑问，请在评论中询问。

我看到你最后的评论了。从编程的角度来看，为每个请求定义一个超时绝对没有错。如果你需要限制网站的流量，那么就不要同时产生100个小绿。繁殖5，等它们回来。然后，你可以等待一段给定的时间，然后生成下一个5（正如我现在看到的，Gabriel Samfira的另一个答案中已经显示了）。对于我上面的代码，这意味着你必须反复调用

N = 10
urls = ['http://google.com' for _ in xrange(N)]
getlets = [gevent.spawn(get_source, url) for url in urls]
gevent.joinall(getlets)
contents = [g.get() for g in getlets]

而CCD_ 4不应该太高。

相关内容

最新更新

热门标签：