为什么Penn Treebank POS标签集有一个单独的标签来表示"to"这个词?



Penn Treebank 标签集有一个单独的标签TO,用于单词"to",无论它是在介词意义上使用(例如I went to school(还是不定式含义(例如I want to eat(。从整体NLP的角度来看,这有什么目的?只是单独标记不定式"to"是直观的,但我看不出在单个标签中组合不定式和介词背后的逻辑。

谢谢,如果这不符合堆栈溢出指南,我们深表歉意。

不同的语料库提供不同级别的粒度。例如,将其与英国国家语料库进行比较,其中包括三个不同的标签。

我相信这可能是语料库标记实践的属性,而不是来自这样一个特定的NLP性能目的。想象这是宾夕法尼亚树银行项目的POS指南的设计决策。(请联系本文作者以进一步澄清。

为了使 POS 标记集没有单词"to"的单独标记,它有时需要将"to"标记为介词,有时需要使用不同的"不定式标记"标记"标记"来标记"to"。为此,人类标记者必须消除"to"这两个角色之间的歧义。一些棘手的情况(需要语法判断(可能需要一些额外的人力时间来消除歧义,考虑到标记的语料库的大小,这也可能导致一些错误标记。如果估计信息增益(来自必须消除歧义的粒度(不是那么大,或者如果潜在的标记错误估计太多,那么这种权衡可能会在效率和正确性方面犯更多错误。

相关内容

最新更新