是否应该从 Rasa NLU 训练数据中删除标点符号?



在 NLU 训练数据中,意图话语上的标点符号(逗号、撇号、问号、大写字母等(应该保持原样、删除,还是根本重要?

训练数据可以保留标点符号,WhitespaceTokenizer(文档链接(将对其进行清理。不过,并非所有标点符号都被清理干净!您可以在 Github 上的分词器中看到所使用的正则表达式。

因此,对于您提到的标点符号,如逗号、撇号、问号等,您可以将其留在那里,分词器将处理它。

最新更新