小贝子编程

我正在尝试使用pdfminer将数据提取为python中的HTML元素

本文关键字：提取数据 python 中的元素 HTML pdfminer python python-3.x pdfminer pdf-conversion pdf-to-html
更新时间 : 2023-09-18
英文 : I am trying to extract data as HTML elements in python using pdfminer

我正在尝试使用pdfminer从pdf中提取HTML格式的数据，尽管我成功地从同一个pdf中提取了文本，但现在我在提取HTML格式数据时遇到了错误，我必须进一步过滤数据以将其分类为CSV。这就是剧本。

from io import StringIO  
from pdfminer.layout import LAParams  
from pdfminer.high_level import extract_text_to_fp  
output_string = StringIO  
with open('mini.pdf','rb') as fn:  
extract_text_to_fp(fn, output_string, laparams=LAParams(), output_type='html', codec=None)

这就是我犯的错误。点击此处

以这种方式向StringIO添加括号：output_string = StringIO()将调用类构造，代码可以使用此

我正在尝试使用pdfminer将数据提取为python中的HTML元素

相关内容

最新更新

热门标签：