使用Lucene索引zip文件



是否可以在lucene中索引压缩文件夹。如果我解压缩它,内容太大了。如果我只是索引包含文本文件的压缩文件夹,serach不能正常工作。lucene是否可以在不提取zip文件的情况下进行索引。

Lucene只是一个搜索库,它不可能"知道"所有可能的场景,例如如何索引XML文档、word文件、.zip内的文件、切尔诺贝利发电厂创建的文件等。

但是Lucene所做的是提供API,让您将数据挂接到Lucene中。

如果不能解压缩存档文件的内容,那么可以编写一个类来读取zip文件(但不在磁盘上解压缩),并将这些数据馈送到Lucene中。

如果你主要关心的是指数的大小,那么你没有什么办法来减少它

  • 尝试不使用停止词进行索引
  • 不存储字段,只对其进行索引(提示:Field.store.NO)
  • 始终小写所有术语以减少术语计数

最新更新