我正在寻找从文档生成多个分类器训练数据的指导。例如,如果特定的文档有三个部分,每个部分有10页。(共30页)
我正在寻找开源库,在那里我可以传递文档(明确指定第1节,第2节和第3节页面),然后它可以给我重要的单词列表,用作训练数据来识别"第1节";Vs第2节;Vs第3节。(多个分类)
我很久以前就有这本书了,我不确定它是否对你有帮助,但是有一本书叫做《python深度学习》;2018可以给你一些关于如何从你的文档中生成这样的数据样本的线索。然而,缺点可能是在生成数据样本之前必须以某种方式准备这样的文档。我的评论是基于这样一个事实,我很久以前读过一些关于它的东西,所以我可能记错了。好运!