如何提取PDF年度报告的叙述部分用于文本分析



作为我学士论文的一部分,我想使用FOG指数比较保险公司的SFCR报告和IFRS报告。报告以PDF格式提供。

我想使用Perl中的Fathom包,但为此,我需要txt格式的财务报表的叙述区域。你知道在不需要我手动复制所有内容的情况下如何工作吗?

提前感谢!

Python模块pdfminer可以用于提取所有文本(也可以提取图表中的文本(:

$ pip install pdfminer
$ qpdf --decrypt --password='' report.pdf report2.pdf
$ pdf2txt.py -o report2.txt report2.pdf

这会将提取的文本保存到report2.txt。请注意,我使用了示例PDF文件aegon-integrated-annual-report-2019.pdf。这个文件被证明是加密的,pdf2txt.py拒绝处理它,但幸运的是,qpdf能够解密它,如上所示。

最新更新