小贝子编程

使用Python中的Tika和正则表达式从PDF中提取文本

本文关键字：PDF 提取取文本正则表达式 Python 中的 Tika 使用 python parsing pdf apache-tika
更新时间 : 2023-09-23
英文 : Using Tika in Python and Regular Expression To Extract Text From PDF

我正在尝试使用Python中的Tika从PDF中提取特定信息。我试图将正则表达式合并到代码中，但它返回一个错误。下面是我的代码:

from tika import parser
import re
parsed = parser.from_file("PDF/File.pdf")
desc = re.findall(r'((?:[A-Z][a-z]+s*)+)bs*:s*(.*?)s*(?=(?:[A-Z][a-z]+s*)+:|$)', parsed)
print(desc["content"])

返回如下错误:

TypeError: expected string or bytes-like object, got 'dict'

是否有解决方案来修复错误和一种方式，使正则表达式可以传递到代码?

作为PyMuPDF的维护者，我只是有来演示如何使用这个库:

import fitz  # import pymupdf
import re
doc = fitz.open("PDF/File.pdf")
text = " ".join([page.get_text() for page in doc])
desc = re.findall(r'...', text)

使用Python中的Tika和正则表达式从PDF中提取文本

相关内容

最新更新

热门标签：