什么是Lucene搜索的好选择



我有成千上万的简历,我想搜索以"计算机科学"为背景的简历。

所以,我用谷歌搜索并知道Lucene完成了这项工作,我需要将数据提供给Lucene,它会索引所有文档。

在搜索特定文本(例如"计算机科学"(时,它会产生与结果匹配的简历。

为此,我需要将 MSword-93/MSword-2007/PDF 转换为文本并馈送 Lucene。

我可以从 MSword2007 文档中获取文本,但无法从 MSword 2003 中获取文本。

有很多pdf作家,但我没有得到任何可以做到这一点的PDF阅读器库。

请阐明 PDF 阅读器库并将 ms93 文档转换为文本,或者请让我知道是否有任何 Lucene 搜索的替代方案。

谢谢,非常感谢您的回答

您可以使用Apache Solr或直接使用Tika从PDF和MS Word中提取文本并为其编制索引。两者都是Java项目,但您可以从PHP调用它们的服务器。

最新更新