小贝子编程

python 2.7 -如何逐行从pdf文件中读取txt

本文关键字：pdf 文件 txt 读取逐行何逐行 python file-io python-2.7
更新时间 : 2023-08-22
英文 : python 2.7 - How to read txt line by line from a pdf file

import pyPdf 
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
output = pyPdf.PdfFileWriter()
content=""
for i in range(0,1):
    content += pdfl.getPage(i).extractText() + "n"
outpu = open('b.txt','wb')
outpu.write(content)
f.close()
outpu.close()

这不是将pdf的内容写入txt文件…我该怎么办?

遍历每个页面并像这样调用extractText():

content = ""
for i in range(0, num_pages):
    content += pdfl.getPage(i).extractText() + "n"

一旦你有了完整的内容，你可以很容易地通过'n'分隔符分割行。

编辑:在for循环之后检查变量contents是否包含任何文本。并非所有PDF文件都包含文本信息。

最新更新

每秒请求数
在Swagger UI中是否有一种方法可以在POST上隐藏某个字段(例如Employee ID)，但在PATCH和GET
c语言 - MISRA 要求函数的单点出口用于"lookup table"函数
如何在处理git分支时忽略文件
字符串自定义日期时间格式解析c#
SQL中基于日期的运行总数
在json对象中选择正确的单词
如何使用ansible打开SSH隧道?
PHP make if语句从表中返回新行
SwiftUI：Foreach in List - 有什么优势？
如何加载所有转储附加的字典在python pickle?
Jmeter语言 - 当前活动线程
Java作用域问题:try-catch块，解析字符串到日期
如何在主应用中获得UWP应用服务的通知?
复选框的定位
弹簧启动-采用与2个ymls不同的属性
Symfony 5.3+翻译提供商Crowdin不更新本地文件
从文本文件(.txt)中读取字节数组
如何下载完整的雅典娜查询结果到CSV文件
pyspark:在执行join - restrict相同列名选择时设置别名
如何在Eclipse RCP中隐藏/删除Preferences对话框中的导入/导出按钮
在自定义jackson反序列化器中以响应式方式从db加载实体
使用RestSharp从API返回JSON数据
OAuth同意屏幕不显示正确的AppName
使用ByRef更新记录集字段
提取多个XML文件中所有标签之间的文本，并将提取的文本复制到csv文件中
在Laravel和Vue之间共享数据的糟糕方式
可以在Azure Devops中找到需求文本文件
如何在tensorflow keras中引用ground truth变量?
Json解析并分配给DTO

python 2.7 -如何逐行从pdf文件中读取txt

相关内容

最新更新

热门标签：