如何避免将原始内容存储在SOLR中,仅索引版本



我有很多关于30 tb的文档,这些文档具有与之关联的其他属性

  1. 与solr索引后不想存储实际文档,因为它存储在其他地方,如果需要的话,我可以访问它

  2. 其他数据属性也将用SOLR索引,不会删除。

我目前正在与Ruby一起在Rails上开发,并拥有MySQL,但想搬到mongodb。上面的情况可能吗?

谢谢

- 分数

您不必将原始内容存储在Solr中。这就是存储的索引之间的区别。如果将存储的设置为false,则只能根据需要保留已处理的,令牌化的内容。只需确保您存储ID即可。这是在您的字段定义中设置的 schema.xml

这确实意味着Solr无法将任何非存储字段返回给用户,因此您需要根据ID匹配它们与原始记录匹配(正如您所建议的那样)。

这也打破了部分文档的更新,因此您需要确保在发生变化时重新索引整个文档。

据我了解,您不想与文档的内容一起玩。一旦您将其索引并保留。其他数据属性,您想经常索引。最好创建" content" field 存储的索引,如果您不关心空间。选择巧妙的内容的令牌和过滤器,以使其创建较少的令牌。

有关部分更新,请点击http://solr.pl/en/2012/07/09/solr-4-0-partial-documents-update/

最新更新