我们使用ManifoldCF和Postgresql (9.6(来抓取我们的网站。抓取速度很好(大约 20.000docs/小时(,直到 500.000 个文档。性能下降后,我们可以看到爬行的长时间冻结(很长(。我们怀疑 postgresql 重建了 intrinsiclink 表的索引。可以禁止吗?通过 PostgreSQL 的设置?
谢谢担
您使用的是哪个 MCF 版本? 尝试最新版本:2.13
大多数情况下,数据库会拖累性能。更好地调整PG将获得更好的结果
根据MCF指南:https://manifoldcf.apache.org/release/release-2.13/en_US/performance-tuning.html
您应该关闭PG自动吸尘器,看看是否有帮助。
调优中还有许多其他因素可以尝试。