ManifoldCF 和 Postgresql 可以抓取 150 万个文档



我们使用ManifoldCF和Postgresql (9.6(来抓取我们的网站。抓取速度很好(大约 20.000docs/小时(,直到 500.000 个文档。性能下降后,我们可以看到爬行的长时间冻结(很长(。我们怀疑 postgresql 重建了 intrinsiclink 表的索引。可以禁止吗?通过 PostgreSQL 的设置?

谢谢担

您使用的是哪个 MCF 版本? 尝试最新版本:2.13

大多数情况下,数据库会拖累性能。更好地调整PG将获得更好的结果

根据MCF指南:https://manifoldcf.apache.org/release/release-2.13/en_US/performance-tuning.html

您应该关闭PG自动吸尘器,看看是否有帮助。

调优中还有许多其他因素可以尝试。

最新更新