结合反馈以重新训练 WordToVec 以查找文档相似性

我已经在文本语料库上训练了Gensim的WordToVec，将其转换为DocToVec，然后使用余弦相似性来查找文档之间的相似性。我需要建议类似的文件。现在假设在特定文档的前 5 个建议中，我们手动发现其中 3 个不相似。是否可以将此反馈合并到重新训练模型时？

目前还不清楚"将[Word2Vec模型]转换为DocToVec"是什么意思。gensimDoc2Vec类不使用或不需要Word2Vec模型作为输入。

但是，如果你的语料库有很多手工策划的"这是一个好建议"或"这是一个坏建议"对，你可以使用模型的评分来比较模型，并训练许多变体模型(具有不同的模型参数值，如size、window、min_count、sample等)，选择在测试中得分最高的模型。

这种自动参数搜索是使用真实评估数据的性能来调整像Word2Vec这样的无监督模型的最直接方法。

(根据数据和问题域的具体情况，您可能还会开始注意到模型更好或更差的模式，这有助于您手动调整部分数据预处理。例如，错误情况可能会建议对大写或标记化进行不同的处理。

相关内容