如何使用pdftotext格式获得纯文本标记?



我使用pdftotext从PDF文件中提取普通内容。

但是结果没有格式(例如:段落、列表等)。如何使用pdftotext从pdf中提取纯文本并获得标记格式的结果?

实际上我正在尝试这个:

pdftotext -layout -enc UTF-8

还有其他方法吗?

你想做的是不可能与pdftotext

给出的结果返回pdftotext -layout是您所能得到的最好结果。

标记(或以其他方式格式化)文本的输出目前是不可能的。

然而,在其他领域(如pdf.js)可能会有一些发展,在未来可能会实现类似的事情…

然而,这种"格式化"只会以某种方式反映PDF页面的视觉外观,而不匹配任何结构文档信息(告诉什么是"标题",什么是"列表",什么是"段落")。

@jongware在评论中写的是完全正确的:

PDF文件不包含"段落、列表等",除非它已经用适当的标记特别地标记了。如果PDF没有标记,每个实用程序(包括Adobe自己的Acrobat Reader, PDF处理软件的试金石)只能猜测"段落"或"列表"是什么。

相关内容

  • 没有找到相关文章

最新更新