我在这里分享我的代码
main.py
from fitz import fitz
import spacy
location = "D:pythonResume-Sample.pdf"
text = ''
with fitz.open(str(location)) as doc:
for page in doc:
text+=page.get_text("block")
NER = spacy.load("en_core_web_sm")
text1 = NER(text)
for word in text1.ents:
print(word.text, word.label_)
结果:Abdul Moeez:E-mail- amoeez14@gmail.com;电话+1111111111;地址:巴基斯坦信德省卡拉奇
如何制作和训练模型,使其识别姓名电子邮件电话地址
您需要在适当的指导下使用空格,请访问下面的链接了解更多详细信息https://spacy.io/universe/category/training/
的进程使用正则表达式与pyperclip库https://medium.com/@branzoldecode phone-number-and-email-extractor-with-python-c88f88b42a8a
import re
import pyperclip
Alltext = pyperclip.paste()
EmailRegex = re.compile(r'[a-zA-Z0–9_.+]+@[a-zA-Z0–9_.+]+',re.VERBOSE)
result = EmailRegex.findall(Alltext)
pyperclip.copy(result)
这只是一个查找指定内容的示例,但是您需要先实现自己的逻辑来读取文件。