r语言 - RCrawler :如何限制 RCrawler 收集的页数?(不是爬行深度)



我正在使用RCrawler抓取~300个网站。网站的大小非常多样化:有些很小(十几个页面(,有些很大(每个域 1000 个页面(。抓取后者非常耗时,而且 - 出于我的研究目的 - 当我已经有几百个页面时,更多页面的附加值会降低。

那么:如果收集了 x 个页面,有没有办法停止抓取?

我知道我可以使用 MaxDeep 限制爬网,但即使在 MaxDepth=2 时,这仍然是一个问题。MaxDepth=1 不适合我的研究。另外,我宁愿保持MaxDepth高,这样较小的网站确实会被完全抓取。

多谢!

如何为Rcrawler函数的FUNPageFilter参数实现自定义函数?自定义函数检查DIR中的文件数,如果文件过多,则返回 FALSE。

最新更新