是否可以比较两个单词嵌入库的相似性得分



在我的研究中,我正在探索一组媒体与另一组媒体相比是否存在统计学上显著的意识形态偏见。我希望使用单词嵌入的方法来探索这一点。

让我们以美国和英国的新闻媒体为例。如果我建立一个给定时间段内所有美国媒体文章的语料库和一个相同时间段内的所有英国媒体文章的单独语料库,使用相同的单词嵌入算法(gensim/word2vec/fasttext(和相同的参数集(例如窗口和向量大小(对它们进行训练,是否可以测试美国语料库中一对单词之间获得的余弦相似度在统计上是否显著大于英国语料库中同一对单词间获得的余弦相似性?

非常感谢你的帮助!

您的目标、方法和问题都不清楚。

  • 你的目标是发现任何意识形态偏见(如果存在的话(
  • 你可以通过比较同一单词嵌入算法(比如Word2Verc(的两种不同输出来实现它
  • 你的问题是,是否有可能比较从两个不同的语料库中训练的两个向量

不过,我只回答您的问题。答案是肯定的,当然是可能的

是否可以测试美国语料库中一对单词之间获得的余弦相似度在统计上是否显著大于余弦相似度在英国语料库中的同一对单词之间获得?

我个人的做法是:

对于每个语料库:

  • 获取一个随机单词
  • 获取与该单词最接近的100个单词
  • 测量平均距离

进行p检验,以测试同一语料库中单词之间的相似性差异是否显著。

然而,请注意,这是否真的能达到你的实际目标是不确定的。

最新更新