是多方面的cf是谷歌云端硬盘索引的好选择



我正在使用apache manifoldcf开源项目将Google云端硬盘中的文档索引到我的solr中。我经常看到它在索引数据方面非常不一致。此外,在solr中反映即使是少量文档也需要时间。你真的认为使用它索引谷歌云端硬盘是一个不错的选择吗?

由于响应时间和谷歌云端硬盘本身的限制,它目前有点慢。但是,如果您从Google购买额外的带宽,则此限制可能会减轻。使用当前设置,如果您希望在Google云端硬盘中索引大量文档,则可能不会像您期望的那样快

Manifold CF 非常适合通过文件系统进行爬网。如果你对网络爬虫感兴趣,你可以去Apache Nutch

是的,ManifoldCF确实需要花费大量时间来反映少量文档。此外,它的文档也非常少。虽然,您可以加入邮件列表,在那里您可以向首席开发人员"Karl"提问。他非常乐于助人,通常在几个小时内回答。

附言:I在一个项目中使用ManifoldCF工作了10个月。

相关内容

  • 没有找到相关文章

最新更新