Python:将扫描的pdf转换为出色的python编程



我是python开发的新手,有没有办法使用Python将扫描的PDF/图像转换为Excel。

我尝试使用以下方法:

第 1 步:安装pypandoc库,

pip install pypandoc并在我的代码文件中导入库,如下所示

import pypandoc
from reportlab.lib.testutils import outputfile

第 2 步:

在下面添加了用于转换为 excel 的代码

canout = pypandoc.convert_file("DT.pdf", 'excel', outputfile="MyPdf.excel")
assert canout==""

但无法成功。请建议我进行相同的实现。

注意:如果任何其他实现方式也欢迎。

谢谢

仅供参考 -CLI 版本允许按页面指定多个感兴趣的区域。这里指定了 5 个区域。

Java -jar .\tabula-1.0.2-jar-with-dependencies.jar -p 1 -a 175,140,540,270 -a 175,265,540,390 -a 175,390,540,520 -a 175,510,540,640 -

a 175,640,540,780 -o outFile.csv testfile.pdf

-a 后面的数字是 X、Y 像素坐标,用于定义页面上的感兴趣区域。想象一下,在图像上放置透明方格纸,并在x1=175 y1=140 x2=540 y1=140和x2=540和y2=270 x2=540和y=540处标记4个点。接下来,绘制与这些点相交的水平线和垂直线。将创建一个边界框/矩形。这是要处理的感兴趣区域。

    |           |
    |           |

----x1,y2------x2,y2-----| ||代码将 ||看这里 || |----x1,y1------x2,y1-----| || |

由于每个感兴趣区域有 4 个唯一的 x 和 y 值,因此可以使用 4 个值向软件描述最小边界框。

相关内容

  • 没有找到相关文章

最新更新