python 2.7 -如何逐行从pdf文件中读取txt


import pyPdf 
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
output = pyPdf.PdfFileWriter()
content=""
for i in range(0,1):
    content += pdfl.getPage(i).extractText() + "n"
outpu = open('b.txt','wb')
outpu.write(content)
f.close()
outpu.close()     

这不是将pdf的内容写入txt文件…我该怎么办?

遍历每个页面并像这样调用extractText():

content = ""
for i in range(0, num_pages):
    content += pdfl.getPage(i).extractText() + "n"

一旦你有了完整的内容,你可以很容易地通过'n'分隔符分割行。

编辑:在for循环之后检查变量contents是否包含任何文本。并非所有PDF文件都包含文本信息。

最新更新