在 NLU 训练数据中,意图话语上的标点符号(逗号、撇号、问号、大写字母等(应该保持原样、删除,还是根本重要?
训练数据可以保留标点符号,WhitespaceTokenizer
(文档链接(将对其进行清理。不过,并非所有标点符号都被清理干净!您可以在 Github 上的分词器中看到所使用的正则表达式。
因此,对于您提到的标点符号,如逗号、撇号、问号等,您可以将其留在那里,分词器将处理它。