Doc2Vec TaggedDocument中的标签的用途是什么



它是否有助于分类任务?[docs][1]和教程没有对此进行解释;他们似乎有一种我所没有的理解水平。这些SO的答案接近它并没有明确地说:

  • https://datascience.stackexchange.com/questions/10216/doc2vec-how-to-label-the-paragraphs-gensim
  • doc2vec中单个文档的多个标记。标记的文档

"标记"只是在完成训练后查找所学文档向量的键。

Gensim的Doc2Vec所基于的最初的"段落矢量"研究论文倾向于假设每个文档都有一个唯一的ID——也许,就像其他单词一样,是一个字符串标记。(因此,对谷歌最初的word2vec.c做了一个小补丁,很久以前,它曾被共享为一种"段落矢量"模式的有限示例。(

在那些原始的公式中,文档只有一个唯一的ID——矢量的查找键。

然而,这是一个相当明显/直接的扩展,允许这些关联的向量在许多文档中潜在地映射到其他已知的共享标签。(也就是说,不是每个文档有一个唯一的矢量,而是每个标签有一个独特的矢量,可能会出现在多个文本上。(此外,多个这样的文本矢量范围可能与单个文本相关,已知该文本应该有多个标签。

因此,在Gensim实现中使用了"标签"一词,以证明这是一个比唯一ID或已知标签更通用的关联,尽管在某些情况下可能是其中之一。

如果你刚开始,或者试图匹配早期的论文,只需考虑"标记"每个文档的唯一ID。为每个独立文档提供自己唯一的名称——无论是数据源中的自然名称(如唯一的文章标题或主键(,还是从'0'到数据中文档数的序列号。

只有当你正在尝试专家/实验性的其他方法,在了解了基本方法后,你才会想在多个文档中重复一个"标签",或者每个文档使用一个以上的mroe"标签"。在Doc2Vec的初始应用中,这些方法都不是必要的,也不是典型的。

(如果你开始在训练中重复使用已知标签,Doc2Vec不再是一种严格的"无监督"机器学习技术,而是开始表现得更像一种"有监督"或"半监督"技术,你可以将算法推向想要的答案。这有时很有用,也很合适,但开始使对你的步骤效果的估计变得复杂:然后你必须使用比如延迟测试/验证数据,以获得对系统成功的可靠估计。(

最新更新