为什么我的ELMo CNN模型的性能比Word2vec差



我想通过在五个类标签上对4000条推特数据进行分类,来比较ELMo和word2vec在使用CNN模型进行单词嵌入时的性能,但结果显示ELMo的性能比word2vec。

我为ELMo使用了ELMo性能语言,并为word2vec 预训练了100万条推文

文字2矢量cnn 的曲线损失

ELMo cnn 曲线损耗

这表明这两个模型是过拟合的,但为什么ELMo会比word2vec更差?

从您链接的elmoformanylangs项目来看,您的通用ELMo模型似乎是在";基于从共享任务(wikidump+公共爬网(发布的原始文本中随机采样的一组2000万字的数据";。

考虑到许多tweet大于20个单词,word2vec的100万tweet训练集可能比ELMo模型使用的训练数据更大。而且,来自实际的推文,它也可能比一般的wikidump/通用爬网文本更好地反映推文中使用的单词/词义。

考虑到这一点,我不知道为什么你会期望ELMo的方法一定会更好。

但是,正如您所注意到的,您的分类器在更多的训练中执行更差的事实在很大程度上表明了极端过拟合。在试图进一步解释不同方法的相对优点之前,您可能需要解决这个问题。(当两个分类器都被严重破坏时,为什么一个分类器的破坏性比另一个分类器好一点应该是一个相当有争议的问题。在它们都被固定为尽可能好之后,然后剩下的差异可能很有趣,可以在两者之间进行选择,或者深入理解。(

最新更新