Solr 分页 1 亿个文档结果集



我理解Solr中深度分页的挑战/限制,并且正在实现一些新功能。我正在尝试使用单独的索引字段(整数)对非常大的结果集(例如,超过 1 亿个文档)进行深度分页,并在其中插入一个随机变量(介于 0 和一些已知的 MAXINT 之间)。在查询大型结果集时,我执行初始字段查询,不返回任何行,然后根据计数,我将范围 0 除以 MAXINT,以便通过在随机变量的子范围内再次执行查询并抓取该范围内的所有行来获得平均PAGE_COUNT结果。显然,实际的行数会有所不同,但它应该遵循可预测的分布。

我想知道 - 有没有人大规模地这样做?这应该有效吗?我会报告我的发现,但想要一个关于这个问题的堆栈溢出的书签。

在此处查看本指南。游标必须足够高效,如果你不想重载 Solr

https://cwiki.apache.org/confluence/display/solr/Pagination+of+Results

最新更新