C#正在搜索PDF

我正在使用iTextSharp从pdf中获取内容。我想让用户搜索PDF，就像在任何搜索引擎上一样。搜索应返回最相关的结果。我已经编写了一个库，它对文档执行TF-IDF算法以返回相关结果。虽然这很有效，但我觉得我可能正在重新发明轮子。

这个用户应该能够搜索超过50000个PDF。所以他们很多。我不想把PDF的全部内容存储在我的数据库中，因为我觉得这会非常昂贵。为了缓解这种情况，我编写了我的库，以便在计算TF-IDF时接受频率分布。这使我可以在将PDF添加到系统时阅读，而不是每次执行搜索时阅读。

是否存在已经在做这类事情的图书馆？

Lucene.NET将满足您的需要。

还有一些商业的，比如我们的"搜索单元">

相关内容