是否有可能在Python中提取带有空格的pdf

在使用java和pdfbox创建提取工具后，我一直在尝试使用Python提取pdf。

虽然Java实现对于相同的pdf是成功的，但我一直在努力在python中做同样的事情，因为pdfminer和pypdf以及pypdf2都无法逐行提取pdf与空格。特别地，pdfminer pdf2txt由于一些奇怪的原因将pdf分成3列，然后逐行读取。

我得到的最接近的是使用堆栈溢出问题的实现，不幸的是它没有保留空格。假设我有两个变量都有数字，我无法以文本形式恢复它们。

鉴于此，是否有可能在Python中逐行提取带有空格的pdf ?

我的例子如下:

from pdf2image import convert_from_path
import pytesseract
images = convert_from_path("sample.pdf")
for i,image in enumerate(images,start=1):
    image.save(f"./images/page_{i}.jpg","JPEG")
print(pytesseract.image_to_string("./images/page_1.jpg"))

这里的想法是首先将PDF转换为图像，然后从中读取文本。这种方法保留了空白。

Dependecies:

conda install pdf2image
conda install pytesseract

您可以使用Aspose.PDF Cloud SDK for Python从PDF中逐行提取文本以及空白。目前，它支持从云存储(Amazon S3, DropBox, Google Drive storage, Google Cloud storage, Windows Azure storage, FTP storage和Aspose默认云存储)处理文件。

下面是示例代码:

import os
import asposepdfcloud
from asposepdfcloud.apis.pdf_api import PdfApi
# Get Client Id and Client Secret from https://cloud.aspose.com
pdf_api_client = asposepdfcloud.api_client.ApiClient(
    app_key='xxxxxxxxxxxxxxxxxx',
    app_sid='xxxx-xxxx-xxxx-xxxx-xxxxxxxxxx')
pdf_api = PdfApi(pdf_api_client)
temp_folder="Temp"
#upload PDF file to storage
data_file = "C:/Temp/02_pages.pdf"
remote_name="02_pages.pdf"
pdf_api.upload_file(temp_folder + '/' + remote_name,data_file)
llx = 0
lly = 0
urx = 0
ury = 0
response = pdf_api.get_text(remote_name, llx, lly, urx, ury, folder= temp_folder)
for i in response.text_occurrences.list:
    print(i.text)

p。S:我是Aspose公司的开发者传道者

相关内容

最新更新

热门标签：