存储和搜索400多万个文档



我预计将为拥有400多万文档的大型数据集实现存储和搜索解决方案。每个文档将有40个或更多的字段(或搜索标准)

我以前曾与Lucene和Solr合作过,所以我倾向于使用它们来解决这个问题(当然欢迎任何其他想法和解决方案)。但让我困扰的是高效且可扩展的存储。我一直在寻找Cassandra、MongoDB和其他一些NoSQL解决方案,但不能确定哪种技术最适合这个需求。

我想问一下是否有人遇到过类似的问题,她/他用什么来解决这个问题。

查看此调查文件以获得一般参考:

面向文档的数据存储的调查,一些可用指标
http://cattell.net/datastores/Datastores.pdf

对于IEEE用户:

NoSQL评估:面向用例的调查
http://www.computer.org/portal/web/csdl/doi/10.1109/CSC.2011.6138544
链接

最新更新