空间模型之间的区别 sm, md, lg.



我可以看到,在英语spaCy模型中,中型模型的性能优于小型模型,大型模型的性能优于中型模型 - 但只是略微。但是,在模型的描述中,写道它们都已在OntoNotes上进行了训练。唯一的例外是md和lg的向量,它们已经在CommonCrawl上进行了训练。因此,如果所有模型都在同一个数据集(OntoNotes(上训练,并且唯一的区别是向量,那么为什么不需要向量的任务会有性能差异呢?我很想了解更多关于每个模型以及他们接受训练的设置等信息,但这些信息似乎并不容易获得。

因此,如果所有模型都在同一数据集(OntoNotes(上训练,并且唯一的区别是向量,那么为什么不需要向量的任务会有性能差异呢?

我认为您正在寻找的缺失部分是:如果使用向量初始化模型,则这些向量将在训练期间用作特征。根据向量的不同,这可以为您训练的统计模型组件提供显著的准确性提升。

但是,向量可能非常大,因此您通常需要在模型大小和精度之间找到最佳权衡。如果在训练期间使用了向量,则在运行时也需要使用相同的向量,并且您不能轻易将它们换掉 - 否则,模型的性能会差得多。sm模型没有使用向量进行训练,它允许您加载自己的向量以进行相似性比较,而不会影响预先训练的统计组件的预测。

TL;DR:spaCy的smmdlg核心模型都是在相同的条件下对相同的数据进行训练的。唯一的区别是包含的向量,这些向量用作特征,因此对模型的准确性有影响。

相关内容

最新更新