使用具有特殊字符的Spacy令牌化器时出现的问题



我是Spacy的新手,我试图在文本中找到一些模式,但由于标记化的形式,我遇到了麻烦。例如,我创建了以下模式,试图找到百分比元素,如";0,42%";使用Matcher(这不是我想要的,但我现在只是在练习(:

nlp = spacy.load("pt_core_news_sm")
matcher = Matcher(nlp.vocab)
text = 'total: 1,80%:(comex 1,30% + deriv 0,50%/ativo: 1,17% '
pattern_test =  [{"TEXT": {"REGEX": "[0-9]+[,.]+[0-9]+[%]"}}]  
text_ = nlp(text)
matcher.add("pattern test", [pattern_test] )
result = matcher(text_)
for id_, beg, end in result:
print(id_)
print(text_[beg:end])

问题是,它返回的结果如下所示,因为标记化只将其视为一个标记:

9844711491635719110
1,80%:(comex
9844711491635719110
0,50%/ativo

在标记化字符串之前,我曾尝试在字符串上使用Python的.replace((方法来替换空格中的特殊字符,但现在当我打印标记化结果时,它会像这样分离所有内容:

text_adjustment = text.replace(":", " ").replace("(", " ").replace(")", " ").replace("/", " ").replace(";", " ").replace("-", " ").replace("+", " ")
print([token for token in text_adjustment])
['t', 'o', 't', 'a', 'l', ' ', ' ', '1', ',', '8', '0', '%', ' ', ' ', 'c', 'o', 'm', 'e', 'x', ' ', '1', ',', '3', '0', '%', ' ', ' ', ' ', 'd', 'e', 'r', 'i', 'v', ' ', '0', ',', '5', '0', '%', ' ', 'a', 't', 'i', 'v', 'o', ' ', ' ', '1', ',', '1', '7', '%', ' ']

我希望标记化的结果是这样的:

['total', '1,80%', 'comex', '1,30%', 'deriv', '0,50%', 'ativo', '1,17%']

有更好的方法吗?我使用的是"pt_core_news_sm"模型,但如果我愿意,我可以更改语言。

提前感谢:(

我建议使用

import re
#...
text = re.sub(r'(S)([/:()])', r'1 2', text)
pattern_test =  [{"TEXT": {"REGEX": r"^d+[,.]d+$"}}, {"ORTH": "%"}]

这里,(S)([/:()])正则表达式用于匹配任何非空白(将其捕获到组1(,然后匹配/:()(将其捕捉到组2(,然后re.sub在这两个组之间插入一个空格。

^d+[,.]d+$正则表达式匹配包含浮点值的完整令牌文本,而%是下一个令牌文本(因为数字和%按模型划分为单独的令牌(。

完整的Python代码片段:

import spacy, re
from spacy.matcher import Matcher
#nlp = spacy.load("pt_core_news_sm")
nlp = spacy.load("en_core_web_trf")
matcher = Matcher(nlp.vocab)
text = 'total: 1,80%:(comex 1,30% + deriv 0,50%/ativo: 1,17% '
text = re.sub(r'(S)([/:()])', r'1 2', text)
pattern_test =  [{"TEXT": {"REGEX": "d+[,.]d+"}}, {"ORTH": "%"}]  
text_ = nlp(text)
matcher.add("pattern test", [pattern_test] )
result = matcher(text_)
for id_, beg, end in result:
print(id_)
print(text_[beg:end])

输出:

9844711491635719110
1,80%
9844711491635719110
1,30%
9844711491635719110
0,50%
9844711491635719110
1,17%

相关内容

  • 没有找到相关文章

最新更新