如何制作和训练一个提取pdf后读取数据的模型



我在这里分享我的代码

main.py

from fitz import fitz
import spacy

location = "D:pythonResume-Sample.pdf"
text = ''
with fitz.open(str(location)) as doc:
for page in doc:
text+=page.get_text("block")
NER = spacy.load("en_core_web_sm")
text1 = NER(text)
for word in text1.ents:
print(word.text, word.label_)
结果

:Abdul Moeez:E-mail- amoeez14@gmail.com;电话+1111111111;地址:巴基斯坦信德省卡拉奇

如何制作和训练模型,使其识别姓名电子邮件电话地址

您需要在适当的指导下使用空格,请访问下面的链接了解更多详细信息https://spacy.io/universe/category/training/

的进程使用正则表达式与pyperclip库https://medium.com/@branzoldecode phone-number-and-email-extractor-with-python-c88f88b42a8a

import re 
import pyperclip 
Alltext = pyperclip.paste() 
EmailRegex = re.compile(r'[a-zA-Z0–9_.+]+@[a-zA-Z0–9_.+]+',re.VERBOSE) 
result = EmailRegex.findall(Alltext) 
pyperclip.copy(result) 

这只是一个查找指定内容的示例,但是您需要先实现自己的逻辑来读取文件。

相关内容

  • 没有找到相关文章

最新更新