在Spacy中手动设置句子边界



假设我提前知道文档中的字符级别语句边界:

text = "The cat chased the mouse. The mouse ran away."
boundaries = [(0, 25), (26, 45)]
for start, end in boundaries:
print(text[start:end])

有没有办法让Spacy使用这些边界?从我在官方文档和SO上的其他地方收集到的信息来看,所提供的钩子似乎更适合支持在单词(令牌(级别应用的自定义无状态规则

您不能将句子边界放在任意字符处-spaCy不会让您将句子放在记号中间。

您可以做的是对令牌进行迭代,并使用token.idx(令牌的字符索引(通过查找与边界索引一致的令牌来应用边界。如果代币边界与您的价值观不一致,您必须制定一项政策,该怎么办,无论是抛出异常还是以某种方式进行处理。

最新更新