在PDF文本挖掘中使用AI / ML



说到NLP,我是新手,因为我才刚刚开始学习它。所以,如果这个问题看起来很简单,请耐心等待我:)

我有一堆PDF文件(很多(,任务是:每当有人提出问题并且其中一个PDF中提供了答案时,要么提取包含答案的部分,要么将该特定PDF的页码显示为答案。您可以将每个 PDF 视为某个产品的手册;总共有数百个PDF文件。

我知道这个问题可以使用PDF搜索引擎轻松解决;但是从文本挖掘和AI/ML的角度来看,是否有任何潜在的方法可以解决这个问题?可能是我在几个 PDF 上训练模型并且它适用于休息?

最近我一直在尝试做一些研究,到目前为止我得到的是:每当有人问问题时,我都可以使用 nltk python 从问题中提取关键字(在线提供大量资源(。但真正困扰我的是下一部分,pdf文本/信息开始发挥作用。

提前致谢:)

如果我是你,我会从收集或创建训练机器所需的数据开始。

如:
1.一个客户查询包含以下关键字housetimbernails
因此,您在文档中搜索这些关键字,然后向他们发送house_timber.pdf
2。然后你会想要得到反馈,以了解你所做的是对还是错。
例如要求客户为您提供有关结果的反馈。
或者你可以自己经历它,自己训练它前几百/千次。

然后,我将所有这些训练查询和结果存储在数据库中,以便每次出现新查询时,您都可以完成训练并得出最准确的答案。
然后再次请求反馈并将新结果存储在数据库中。(继续那个反馈循环!

你可以通过运行测试自己训练它。

就像给它关键字一样,检查这些关键字是否存在于.pdf,然后根据结果将结果标记为yes [1]no [0]

我发现你训练得越多,它就越准确。只要您继续从反馈中对其进行训练,那么您的结果就会继续提高准确性。

我还发现,如果你给它太多的训练数据,让它多次运行变化。结果没有太大改善,只是需要更多时间。因此,尝试找到最佳点、适量数据和适量的训练迭代也很重要。(如果您试图给出快速响应(。

开始使用机器学习来查找模式是一次很酷的冒险。玩得愉快!

最新更新