有没有一种方法可以索引Lucene中的CHM文件



有人能建议我一种方法来索引chm文件吗?例如pdfboxfor pdf。

如果您还有其他需要索引的文档格式,您可能会在Apache Tika 中找到更好、更通用的解决方案

他们最近刚刚添加了一个CHM解析器(供参考:支持CHM格式),它将出现在下一个版本中。

如果您谈论的是Microsoft Compiled HTML帮助文件,您可以使用JChm从中提取文本,然后以正常方式对其进行索引。

最新更新