Python urllib3 and proxy

我正试图弄清楚如何使用代理和多线程。

此代码有效：

requester = urllib3.PoolManager(maxsize = 10, headers = self.headers)
thread_pool = workerpool.WorkerPool()
thread_pool.map(grab_wrapper, [item['link'] for item in products])
thread_pool.shutdown()
thread_pool.wait()

然后在grab_wrapper 中

requested_page = requester.request('GET', url, assert_same_host = False, headers = self.headers)

标头包括：Accept、Accept Charset、Accept Encoding、Accept Language和User Agent

但这在生产中不起作用，因为它必须通过代理，不需要授权。

我尝试了不同的方法（将proxies传递给请求、在标头中等）

requester = urllib3.proxy_from_url(self._PROXY_URL, maxsize = 7, headers = self.headers)
thread_pool = workerpool.WorkerPool(size = 10)
thread_pool.map(grab_wrapper, [item['link'] for item in products])
thread_pool.shutdown()
thread_pool.wait()

现在，当我运行该程序时，它将发出10个请求（10个线程），然后。。。停止没有错误，没有任何警告。这是我绕过代理的唯一方法，但似乎不可能同时使用proxy_from_url和WorkerPool。

有什么想法可以将这两者结合成一个工作代码吗？由于的时间限制，我宁愿避免将其改写成碎片等

问候

首先，我建议避免像瘟疫一样使用urllib，而是使用请求，这对代理有非常简单的支持：http://docs.python-requests.org/en/latest/user/advanced/#proxies
除此之外，我还没有将它与多线程一起使用，而是与多处理一起使用，而且效果非常好，你唯一需要弄清楚的是，你是有一个动态队列，还是有一个相当固定的列表，可以分布在工作线程上，后者的一个例子是将URL列表均匀地分布在x个进程上：

# *** prepare multi processing
nr_processes = 4
chunksize = int(math.ceil(total_nr_urls / float(nr_processes)))
procs = []
# *** start up processes
for i in range(nr_processes):
    start_row = chunksize * i
    end_row = min(chunksize * (i + 1), total_nr_store)
    p = multiprocessing.Process(
            target=url_loop,
            args=(start_row, end_row, str(i), job_id_input))
    procs.append(p)
    p.start()
# *** Wait for all worker processes to finish
for p in procs:
    p.join()

每个url_oop进程都会将自己的数据集写入数据库中的表中，所以我不必担心在python中将它们连接在一起。

编辑：在进程之间共享数据->有关详细信息，请参阅：http://docs.python.org/2/library/multiprocessing.html?highlight=multiprocessing#multiprocessing

from multiprocessing import Process, Value, Array
def f(n, a):
    n.value = 3.1415927
    for i in range(len(a)):
        a[i] = -a[i]
if __name__ == '__main__':
    num = Value('d', 0.0)
    arr = Array('i', range(10))
    p = Process(target=f, args=(num, arr))
    p.start()
    p.join()
    print num.value
    print arr[:]

但是，正如您所看到的，基本上这些特殊类型（Value&Array）能够在进程之间共享数据。如果您转而寻找一个队列来执行类似循环的过程，则可以使用JoinableQueue。希望这能有所帮助！

您似乎正在丢弃对thread_pool.map()的调用结果尝试将其分配给一个变量：

requester = urllib3.proxy_from_url(PROXY, maxsize=7)
thread_pool = workerpool.WorkerPool(size=10)

def grab_wrapper(url):
    return requester.request('GET', url)

results = thread_pool.map(grab_wrapper, LINKS)
thread_pool.shutdown()
thread_pool.wait()

注：如果您使用的是python 3.2或更高版本，则可以使用concurrent.futures.ThreadPoolExecutor。它与workerpool类似，但包含在标准库中。

相关内容

最新更新

热门标签：