我们使用 ManiFoldCF documentum 连接器从 DCTM 存储库中抓取数据,并将爬网的数据写入 MongoDB。以限制值 500 触发的爬网。但爬网速度非常慢,每分钟连接器仅读取 170 个文档。安装了 MCF 的服务器配置了具有 8 个逻辑内核 (CPU) 的足够内存。有人可以在这里帮助我们提高抓取速度吗?
更好地调整爬虫数据库(PostgreSQL)是良好的开端。
您可以使用一些参考:https://manifoldcf.apache.org/release/release-2.13/en_US/performance-tuning.html