如何为doc2vec选择最佳vectorsize



我正在比较技术,想找出对大量文本文档进行矢量化和降维的最佳方法。我已经测试了Bag of Words和TF-IDF,并用PCA、SVD和NMF降低了维度。使用这些方法,我可以减少我的数据,并根据解释的方差知道最佳的维度数量。

然而,考虑到doc2vec本身是一个尺寸缩减器,我想对它做同样的处理,找出我的模型的尺寸数量的最佳方法是什么?有什么统计指标可以帮助我找到vector_size的最佳数量吗?

提前感谢!

什么是最好的,没有神奇的指标;考虑到你的数据,你应该尝试一系列的维度来看看你的具体下游评估中哪些得分很好;目标。

如果使用提供训练集外文档推断的doc2vec实现(例如通过Python-gensim库中的.infer_vector()方法(,则消除vector_size(或其他参数(的非常糟糕的选择的合理健全性检查是重新推断训练集文档的向量。

如果同一文本的重复再推理通常是";接近";彼此之间,以及整个模型训练创建的同一文档的向量,这是一个弱指标,表明模型至少以自一致的方式运行。(如果结果的分布很大,这可能表明数据不足、训练时期过少、模型过大/过拟合或其他基本问题存在潜在问题。(

最新更新