doc2vec良好性能所需的最小数据集大小是多少

doc2vec在不同大小的数据集上训练时如何执行？原始语料库中没有提及数据集大小，因此我想知道从DOC2VEC中获得良好性能所需的最小尺寸是多少。

一堆事物被称为'doc2vec'，但似乎最常用于le and mikolov的'段落向量'技术。

原始的"段落矢量"论文描述了在三个数据集上对其进行评估：

第一两个是公开的，因此您还可以用单词，典型的文档大小和词汇来查看它们的总尺寸。（但是请注意，没有人能够在前两个数据集中的任何一个都能充分发育该论文的情感分类结果，这意味着其报告中的一些丢失的信息或错误。可以在IMDB数据集上接近。）

后续纸将算法应用于数据集中的局部关系：

因此，这两篇早期论文中使用的成本范围从数千万到数百万个文档，并且文档尺寸从几个单词短语到数千篇文章。（但是这些作品并不一定混合了大小不同的文档。）

一般而言，Word2Vec/段落 - 矢量技术受益于许多数据和各种文字上下文。如果没有至少数万个文件，我不会期望取得良好的结果。文档的时间远远超过几个单词，每个单词的工作效果更好。结果可能很难解释是否在相同的培训中混合了大小的大小或不同文档，例如混合推文和书籍。

但是，您确实必须使用您的语料库和目标对其进行评估，因为出于某些目的，与某些数据一起使用的方法可能无法推广到非常不同的项目。

相关内容