小贝子编程

r语言 - RCrawler :如何限制 RCrawler 收集的页数?(不是爬行深度)

本文关键字：RCrawler 爬行深度 r语言何限制 r web-scraping rcrawler
更新时间 : 2023-09-16
英文 : r - RCrawler : way to limit number of pages that RCrawler collects? (not crawl depth)

我正在使用RCrawler抓取~300个网站。网站的大小非常多样化：有些很小(十几个页面(，有些很大(每个域 1000 个页面(。抓取后者非常耗时，而且 - 出于我的研究目的 - 当我已经有几百个页面时，更多页面的附加值会降低。

那么：如果收集了 x 个页面，有没有办法停止抓取？

我知道我可以使用 MaxDeep 限制爬网，但即使在 MaxDepth=2 时，这仍然是一个问题。MaxDepth=1 不适合我的研究。另外，我宁愿保持MaxDepth高，这样较小的网站确实会被完全抓取。

多谢！

如何为Rcrawler函数的FUNPageFilter参数实现自定义函数？自定义函数检查DIR中的文件数，如果文件过多，则返回 FALSE。

相关内容