我正在使用Python PDFTK作为我正在进行的PDF文本提取项目的一部分。有人知道我可以使用的更好的文本提取库吗?
我正在使用Python,但现在一切皆有可能。
我也在寻找替代品——基本上是任何能跑得一样或更好的东西。我的一些PDF(未加密等)没有被PDFTK提取器识别,我也没有得到我想要的进展。
谢谢你抽出时间。
尝试PDFMiner。这是一个支持许多功能的PDF库。基本上,它还有一个名为pdf2text.py的工具,他们在其中提供了一个将加密PDF文件中的内容提取为纯文本文档的示例。请参阅页面上pdf2text.py的部分。
还支持CJK语言(需要安装一些依赖项)
还支持CJK字符