选择BPE与WordPiece Tokenization之间的一般权衡是什么?什么时候一个比另一个更可取?两者在模型性能上是否有任何差异?我正在寻找一个总体答案,并以具体示例为后盾。谢谢!
与 BPE 相比,WordPiece 不会选择最常用的符号对,而是选择在将训练数据添加到词汇表后最大化可能性的符号对。最大化训练数据的可能性等效于找到符号对,其概率除以其第一个符号后跟第二个符号的概率是所有符号对中最大的。
直观地说,WordPiece与BPE略有不同,因为它通过合并两个符号来评估它的损失,以确保它是值得的。
因此,WordPiece 针对给定的训练数据进行了优化。WordPiece将具有较低的词汇大小,因此需要训练的参数更少。收敛将更快。但是,当训练数据发生变化时,这可能并非如此。
如果您的训练数据是固定的或与新的训练数据非常相似,请选择 WordPiece。
如果您的训练数据发生重大变化,请选择 BPE。