如何为doc2vec选择最佳vectorsize

我正在比较技术，想找出对大量文本文档进行矢量化和降维的最佳方法。我已经测试了Bag of Words和TF-IDF，并用PCA、SVD和NMF降低了维度。使用这些方法，我可以减少我的数据，并根据解释的方差知道最佳的维度数量。

然而，考虑到doc2vec本身是一个尺寸缩减器，我想对它做同样的处理，找出我的模型的尺寸数量的最佳方法是什么？有什么统计指标可以帮助我找到vector_size的最佳数量吗？

提前感谢！

什么是最好的，没有神奇的指标；考虑到你的数据，你应该尝试一系列的维度来看看你的具体下游评估中哪些得分很好；目标。

如果使用提供训练集外文档推断的doc2vec实现(例如通过Python-gensim库中的.infer_vector()方法(，则消除vector_size(或其他参数(的非常糟糕的选择的合理健全性检查是重新推断训练集文档的向量。

如果同一文本的重复再推理通常是"；接近"；彼此之间，以及整个模型训练创建的同一文档的向量，这是一个弱指标，表明模型至少以自一致的方式运行。(如果结果的分布很大，这可能表明数据不足、训练时期过少、模型过大/过拟合或其他基本问题存在潜在问题。(

相关内容