假设我有一个空间系统,可以很容易地标记一个动词或标点符号成员具有语义。
然而,只要有可能,我宁愿依赖自然语言处理管道生成的本地spacy
信息。
目前,我在代码中将以下三项标记为语义赋值操作符,并依赖spacy
的分支头部识别系统(通过实体头部获得)。左或头(右)来隔离结肠。然后,我分析了句子的语义,理解冒号的引理实际上是"be"。或"list"
{ 'is', 'are', ':' }
然而,我宁愿依赖一些通用的spacy
语言信息,这样系统就不那么特定于英语了。
是否有任何信息、成员或属性允许我推导出标点符号是语义赋值操作符?
例如,动词具有.lemma_
属性,表明它们是我所描述的赋值操作符(.lemma_ = 'be'
),而标点符号':'确实将注册为标记,但似乎没有指示性信息,说明其逻辑目的。
然而,它是一个显式传递运算符,在我正在分析的技术散文中,名词被赋予状态或隶属关系的情况下,它几乎占35%。
我将文本冒号替换为"像这样(正则表达式不一定在所有情况下都是正确的):
re.sub(r'([A-z][.]?): ', r'1 is listed as', text)
space能够处理带有文本冒号的句子,作为具有合理清晰引理的适当语义标记。