说到NLP,我是新手,因为我才刚刚开始学习它。所以,如果这个问题看起来很简单,请耐心等待我:)
我有一堆PDF文件(很多(,任务是:每当有人提出问题并且其中一个PDF中提供了答案时,要么提取包含答案的部分,要么将该特定PDF的页码显示为答案。您可以将每个 PDF 视为某个产品的手册;总共有数百个PDF文件。
我知道这个问题可以使用PDF搜索引擎轻松解决;但是从文本挖掘和AI/ML的角度来看,是否有任何潜在的方法可以解决这个问题?可能是我在几个 PDF 上训练模型并且它适用于休息?
最近我一直在尝试做一些研究,到目前为止我得到的是:每当有人问问题时,我都可以使用 nltk python 从问题中提取关键字(在线提供大量资源(。但真正困扰我的是下一部分,pdf文本/信息开始发挥作用。
提前致谢:)
如果我是你,我会从收集或创建训练机器所需的数据开始。
如:
1.一个客户查询包含以下关键字house
timber
nails
。
因此,您在文档中搜索这些关键字,然后向他们发送house_timber.pdf
2。然后你会想要得到反馈,以了解你所做的是对还是错。
例如要求客户为您提供有关结果的反馈。
或者你可以自己经历它,自己训练它前几百/千次。
然后,我将所有这些训练查询和结果存储在数据库中,以便每次出现新查询时,您都可以完成训练并得出最准确的答案。
然后再次请求反馈并将新结果存储在数据库中。(继续那个反馈循环!
你可以通过运行测试自己训练它。
就像给它关键字一样,检查这些关键字是否存在于.pdf
,然后根据结果将结果标记为yes [1]
或no [0]
。
我发现你训练得越多,它就越准确。只要您继续从反馈中对其进行训练,那么您的结果就会继续提高准确性。
我还发现,如果你给它太多的训练数据,让它多次运行变化。结果没有太大改善,只是需要更多时间。因此,尝试找到最佳点、适量数据和适量的训练迭代也很重要。(如果您试图给出快速响应(。
开始使用机器学习来查找模式是一次很酷的冒险。玩得愉快!