我正在使用apache manifoldcf开源项目将Google云端硬盘中的文档索引到我的solr中。我经常看到它在索引数据方面非常不一致。此外,在solr中反映即使是少量文档也需要时间。你真的认为使用它索引谷歌云端硬盘是一个不错的选择吗?
由于响应时间和谷歌云端硬盘本身的限制,它目前有点慢。但是,如果您从Google购买额外的带宽,则此限制可能会减轻。使用当前设置,如果您希望在Google云端硬盘中索引大量文档,则可能不会像您期望的那样快
Manifold CF 非常适合通过文件系统进行爬网。如果你对网络爬虫感兴趣,你可以去Apache Nutch。
是的,ManifoldCF确实需要花费大量时间来反映少量文档。此外,它的文档也非常少。虽然,您可以加入邮件列表,在那里您可以向首席开发人员"Karl"提问。他非常乐于助人,通常在几个小时内回答。
附言:I在一个项目中使用ManifoldCF工作了10个月。