我正在尝试使用pdfminer从pdf中提取HTML格式的数据,尽管我成功地从同一个pdf中提取了文本,但现在我在提取HTML格式数据时遇到了错误,我必须进一步过滤数据以将其分类为CSV。这就是剧本。
from io import StringIO
from pdfminer.layout import LAParams
from pdfminer.high_level import extract_text_to_fp
output_string = StringIO
with open('mini.pdf','rb') as fn:
extract_text_to_fp(fn, output_string, laparams=LAParams(), output_type='html', codec=None)
这就是我犯的错误。点击此处
以这种方式向StringIO
添加括号:output_string = StringIO()
将调用类构造,代码可以使用此