空格令牌中是否有指示令牌含义的信息?



假设我有一个空间系统,可以很容易地标记一个动词或标点符号成员具有语义。

然而,只要有可能,我宁愿依赖自然语言处理管道生成的本地spacy信息。


目前,我在代码中将以下三项标记为语义赋值操作符,并依赖spacy的分支头部识别系统(通过实体头部获得)。左或头(右)来隔离结肠。然后,我分析了句子的语义,理解冒号的引理实际上是"be"。或"list"

{ 'is', 'are', ':' }

然而,我宁愿依赖一些通用的spacy语言信息,这样系统就不那么特定于英语了。

是否有任何信息、成员或属性允许我推导出标点符号是语义赋值操作符?

例如,动词具有.lemma_属性,表明它们是我所描述的赋值操作符(.lemma_ = 'be'),而标点符号':'确实将注册为标记,但似乎没有指示性信息,说明其逻辑目的。

然而,它是一个显式传递运算符,在我正在分析的技术散文中,名词被赋予状态或隶属关系的情况下,它几乎占35%。

我将文本冒号替换为"像这样(正则表达式不一定在所有情况下都是正确的):

re.sub(r'([A-z][.]?): ', r'1 is listed as', text)

space能够处理带有文本冒号的句子,作为具有合理清晰引理的适当语义标记。

最新更新