空格令牌中是否有指示令牌含义的信息?

假设我有一个空间系统，可以很容易地标记一个动词或标点符号成员具有语义。

然而，只要有可能，我宁愿依赖自然语言处理管道生成的本地spacy信息。

目前，我在代码中将以下三项标记为语义赋值操作符，并依赖spacy的分支头部识别系统(通过实体头部获得)。左或头(右)来隔离结肠。然后，我分析了句子的语义，理解冒号的引理实际上是"be"。或"list"

{ 'is', 'are', ':' }

然而，我宁愿依赖一些通用的spacy语言信息，这样系统就不那么特定于英语了。

是否有任何信息、成员或属性允许我推导出标点符号是语义赋值操作符?

例如，动词具有.lemma_属性，表明它们是我所描述的赋值操作符(.lemma_ = 'be')，而标点符号':'确实将注册为标记，但似乎没有指示性信息，说明其逻辑目的。

然而，它是一个显式传递运算符，在我正在分析的技术散文中，名词被赋予状态或隶属关系的情况下，它几乎占35%。

我将文本冒号替换为"像这样(正则表达式不一定在所有情况下都是正确的):

re.sub(r'([A-z][.]?): ', r'1 is listed as', text)

space能够处理带有文本冒号的句子，作为具有合理清晰引理的适当语义标记。

相关内容