Python 2中的异步多个web抓取器



我有许多专门的web抓取器的遗留代码库,它们都依赖于向web服务器发出同步请求,运行while True,最后运行sleep语句。该代码库是在Python 2中编写的,迁移到Python 3并利用Python 3的异步特性可能是不可行的。

理想情况下,我想重写这一套许多单独的网页抓取脚本作为一个单一的管道,具有以下

  • 异步web请求(Python 2)
  • 异步写入csv
  • 非阻塞sleep语句,以便以设定的频率刮擦每个单独的页面

这似乎是Python 3中asyncio和协程之间的一个简单问题。有人能建议我如何做到这一点/在Python 2中做这个的一些示例资源吗?

谢谢你的建议

你可以把每个函数放在一个不同的文件中,然后当你想让它们全部消失时,你可以这样做。

import os
os.system('python file1.py')
os.system('python file2.py')
os.system('python file3.py')
os.system('python file4.py')

最新更新