用Python将多个PDF文件转换为txt

import os
from PyPDF2 import PdfFileReader, PdfFileWriter
for filename in os.listdir("C:/117"):
path = os.path.join("C:/117/", filename)
print(path)
with open('file.txt', 'w', encoding='utf-8') as file:
for page_num in range(PdfFileReader(path).numPages):
print('Page: {0}'.format(page_num))
pageObj = PdfFileReader(path).getPage(page_num)

try:
txt = pageObj.extractText()
except:
pass
else:
file.write('Page{0}n'.format(page_num+1))
file.write(txt)
file.close()

我正在将数百个pdf文件转换为txt。然而，使用此代码，所有PDF都会合并到一个txt文件中。有没有办法为我转换的每个PDF创建单独的txt文件？感谢

from pathlib import Path
from pypdf import PdfReader

def convert_pdf_to_text(path: Path) -> str:
text = ""
for page in PdfReader(path).pages:
text += page.extract_text() + "n"
return text

for path in Path("Documents").glob("**/*.pdf"):
text = convert_pdf_to_text(path)
txt_path = path.parent / (".".join(path.name.split(".")[:-1]) + ".txt")
if txt_path.exists():
print(f"Skip {txt_path} as it already exists")
continue
with open(txt_path, "wt") as fp:
fp.write(text)

相关内容

最新更新

热门标签：