使用Python将PDF数据转换为XML格式



从python中的PDF文件中提取文本可以使用不同的python包来完成,但我正在寻找深度学习解决方案?如何使用深度学习来提取xml格式的文本?听说很多次深度学习可以用吗?任何人都可以有任何用例并解释过程吗?

PDF解析的问题不是输出,而是页面分析的过程。因此,如果你正确地分析页面,你可以以任何你想要的格式输出结果(这应该是容易的部分(。我建议阅读pdfminer的源代码,我认为它是最复杂的,这样你就可以开始学习如何启动,这样你就能解析PDF了。至于深度学习,我认为这会很复杂,但是的,它有应用程序,因为PDF文件最难的问题是管理文本方向、行间距、垂直或横向、页边空白等。如果你开始一个项目,并永远记住PDF是邪恶的,祝你好运。

最新更新