如何在Python中将扫描的PDF转换为可搜索的PDF?[环境:Windows]



我已经扫描了pdf,我只想用python转换可搜索的pdf。我可以在Abode上转换,但我想通过程序进行转换,而且它应该是开源的。有人能帮忙转换PDF吗?

注意:它不应该删除PDF上的任何图像。

我已经通过使用wand包解决了这个问题。示例代码:

from pdf2image import convert_from_path
from wand.image import Image as WandImage
TIFFPdf = convert_from_path(pdfFileName)
pageNumber = 0
for img in TIFFPdf:
pageNumber = pageNumber + 1

img1 = WandImage()
img1.read(filename='suresh.pdf' + '[' + str(pageNumber) + ']', resolution=300)
img1.compression = 'group4'
img1.save(filename=str(pageNumber) + '.tif')

最新更新