在PDF文本挖掘中使用AI / ML

说到NLP，我是新手，因为我才刚刚开始学习它。所以，如果这个问题看起来很简单，请耐心等待我:)

我有一堆PDF文件(很多(，任务是：每当有人提出问题并且其中一个PDF中提供了答案时，要么提取包含答案的部分，要么将该特定PDF的页码显示为答案。您可以将每个 PDF 视为某个产品的手册;总共有数百个PDF文件。

我知道这个问题可以使用PDF搜索引擎轻松解决;但是从文本挖掘和AI/ML的角度来看，是否有任何潜在的方法可以解决这个问题？可能是我在几个 PDF 上训练模型并且它适用于休息？

最近我一直在尝试做一些研究，到目前为止我得到的是：每当有人问问题时，我都可以使用 nltk python 从问题中提取关键字(在线提供大量资源(。但真正困扰我的是下一部分，pdf文本/信息开始发挥作用。

提前致谢:)

如果我是你，我会从收集或创建训练机器所需的数据开始。

如：
1.一个客户查询包含以下关键字housetimbernails。
因此，您在文档中搜索这些关键字，然后向他们发送house_timber.pdf
2。然后你会想要得到反馈，以了解你所做的是对还是错。
例如要求客户为您提供有关结果的反馈。
或者你可以自己经历它，自己训练它前几百/千次。

然后，我将所有这些训练查询和结果存储在数据库中，以便每次出现新查询时，您都可以完成训练并得出最准确的答案。
然后再次请求反馈并将新结果存储在数据库中。(继续那个反馈循环！

你可以通过运行测试自己训练它。

就像给它关键字一样，检查这些关键字是否存在于.pdf，然后根据结果将结果标记为yes [1]或no [0]。

我发现你训练得越多，它就越准确。只要您继续从反馈中对其进行训练，那么您的结果就会继续提高准确性。

我还发现，如果你给它太多的训练数据，让它多次运行变化。结果没有太大改善，只是需要更多时间。因此，尝试找到最佳点、适量数据和适量的训练迭代也很重要。(如果您试图给出快速响应(。

开始使用机器学习来查找模式是一次很酷的冒险。玩得愉快！

相关内容