doc2vec良好性能所需的最小数据集大小是多少



doc2vec在不同大小的数据集上训练时如何执行?原始语料库中没有提及数据集大小,因此我想知道从DOC2VEC中获得良好性能所需的最小尺寸是多少。

一堆事物被称为'doc2vec',但似乎最常用于le and mikolov的'段落向量'技术。

原始的"段落矢量"论文描述了在三个数据集上对其进行评估:

  • '斯坦福情感树库':11,825个电影评论的句子(这些句子进一步分为239,232个片段,每个单词的片段)
  • 'IMDB数据集':100,000个电影评论(通常为几百个单词)
  • 搜索文献'段'

第一两个是公开的,因此您还可以用单词,典型的文档大小和词汇来查看它们的总尺寸。(但是请注意,没有人能够在前两个数据集中的任何一个都能充分发育该论文的情感分类结果,这意味着其报告中的一些丢失的信息或错误。可以在IMDB数据集上接近。)

后续纸将算法应用于数据集中的局部关系:

  • Wikipedia:4,490,000篇文章Body-Texts
  • arxiv:从PDFS提取的886,000张学术纸文本

因此,这两篇早期论文中使用的成本范围从数千万到数百万个文档,并且文档尺寸从几个单词短语到数千篇文章。(但是这些作品并不一定混合了大小不同的文档。)

一般而言,Word2Vec/段落 - 矢量技术受益于许多数据和各种文字上下文。如果没有至少数万个文件,我不会期望取得良好的结果。文档的时间远远超过几个单词,每个单词的工作效果更好。结果可能很难解释是否在相同的培训中混合了大小的大小或不同文档,例如混合推文和书籍。

但是,您确实必须使用您的语料库和目标对其进行评估,因为出于某些目的,与某些数据一起使用的方法可能无法推广到非常不同的项目。

最新更新