我有一个pdf文件列表,这些文件具有不同数量的页面和演示文稿。每个文件都包含我需要提取的信息列表。但问题是信息被包装在不同类型的短语和语法中。我需要知道我是否需要构建机器学习来做到这一点,以及哪种算法和技术适合我的情况。注意:我有一个巨大的pdf文件数据集,用于训练模型。
所以如果你想在Python中做到这一点,PyPDF2似乎是要走的路。您应该能够从PDF中读入和提取所需的文本数据。 自动化无聊的东西有使用PyPDF2的例子。