优化Lucene的压缩比



我有一个用于Lucene的用例,其中所需的搜索类型非常简单。我可能会在没有存储的字段或任何复杂的附加组件的情况下使用docs_only索引。这些文档是非结构化的英语文字。

对于此用例,要优化的最重要的事情是原始文档与索引大小的压缩比。Lucene指数应尽可能小,即使以增加搜索和更新延迟为代价。

我想知道如何配置Lucene(任何版本)来实现这一目标。特别是应该使用哪种编解码器?是否有强调压缩在搜索速度上的人?我可以调整其他设置可以优化发布列表压缩吗?

tl; dr: for docs_only索引在lucene中,如何使索引尽可能小?

在一般关键的想法中,降低索引大小为 - 尽可能少地存储索引。

在为您的问题找到正确答案之前,首先提出了一些问题。例如,您的索引有多大,您期望它增长多少?我之所

我以前见过,人们通过使用索引规模最高40%-50%SimpleAnalyzer以索引编写文档,而不是使用StandardAnalyzer(通常需要更多的存储空间),但这影响了搜索性能。您在帖子中提到,您已经准备好在搜索时间增加了,但是您准备牺牲搜索表现了吗?这是一个非常重要的问题。如果您已经达到阈值,则不值得努力减少索引的大小!

我还看到其他因素变化以减少大小。例如,根据文档,Index.NO_NORMS将在索引中为您节省一个字节。甚至有时人们会说,要压缩数值数据(我从未检查过自己),可以更改数字的基础,该数字被索引/存储在索引中。

此外,我想这两个帖子中的这两个帖子将对您有所帮助。

(1)SOLR索引尺寸减小(2)如何减少生成的Lucene/Solr指数的大小?

您也可以阅读此帖子。

最新更新