使用Python中的Tika和正则表达式从PDF中提取文本



我正在尝试使用Python中的Tika从PDF中提取特定信息。我试图将正则表达式合并到代码中,但它返回一个错误。下面是我的代码:

from tika import parser
import re
parsed = parser.from_file("PDF/File.pdf")
desc = re.findall(r'((?:[A-Z][a-z]+s*)+)bs*:s*(.*?)s*(?=(?:[A-Z][a-z]+s*)+:|$)', parsed)
print(desc["content"])

返回如下错误:

TypeError: expected string or bytes-like object, got 'dict'

是否有解决方案来修复错误和一种方式,使正则表达式可以传递到代码?

作为PyMuPDF的维护者,我只是来演示如何使用这个库:

import fitz  # import pymupdf
import re
doc = fitz.open("PDF/File.pdf")
text = " ".join([page.get_text() for page in doc])
desc = re.findall(r'...', text)

最新更新