如何在 R 中抓取时修复"connection timed out after 10000 milliseconds"?



我试图抓取多个网站以提取网站标题、描述和关键字。抓取大约 15 个网站是可以的,但是当我尝试抓取更多网站时,R 不断返回超时错误。

以下是错误消息的副本:

Error in open.connection(x, "rb") : 
  Timeout was reached: Connection timed out after 10000 milliseconds

我试图使用options(timeout = 400000)但它不起作用。

此外,我正在考虑下载页面并将其read_html到 R 中,但这个想法是不可行的,因为我有一个包含许多 URL 的列表。

此问题的一种解决方案可能是在每次迭代后关闭浏览器。您可以尝试为每个网页打开一个新浏览器,然后在抓取后将其关闭。这可以对所有需要抓取的网站进行循环。

相关内容

最新更新