C#正在搜索PDF



我正在使用iTextSharp从pdf中获取内容。我想让用户搜索PDF,就像在任何搜索引擎上一样。搜索应返回最相关的结果。我已经编写了一个库,它对文档执行TF-IDF算法以返回相关结果。虽然这很有效,但我觉得我可能正在重新发明轮子。

这个用户应该能够搜索超过50000个PDF。所以他们很多。我不想把PDF的全部内容存储在我的数据库中,因为我觉得这会非常昂贵。为了缓解这种情况,我编写了我的库,以便在计算TF-IDF时接受频率分布。这使我可以在将PDF添加到系统时阅读,而不是每次执行搜索时阅读。

是否存在已经在做这类事情的图书馆?

Lucene.NET将满足您的需要。

还有一些商业的,比如我们的"搜索单元">

最新更新