使用Python将PDF数据转换为XML格式

从python中的PDF文件中提取文本可以使用不同的python包来完成，但我正在寻找深度学习解决方案？如何使用深度学习来提取xml格式的文本？听说很多次深度学习可以用吗？任何人都可以有任何用例并解释过程吗？

PDF解析的问题不是输出，而是页面分析的过程。因此，如果你正确地分析页面，你可以以任何你想要的格式输出结果(这应该是容易的部分(。我建议阅读pdfminer的源代码，我认为它是最复杂的，这样你就可以开始学习如何启动，这样你就能解析PDF了。至于深度学习，我认为这会很复杂，但是的，它有应用程序，因为PDF文件最难的问题是管理文本方向、行间距、垂直或横向、页边空白等。如果你开始一个项目，并永远记住PDF是邪恶的，祝你好运。

相关内容

最新更新

热门标签：