结合反馈以重新训练 WordToVec 以查找文档相似性



我已经在文本语料库上训练了Gensim的WordToVec,将其转换为DocToVec,然后使用余弦相似性来查找文档之间的相似性。我需要建议类似的文件。现在假设在特定文档的前 5 个建议中,我们手动发现其中 3 个不相似。是否可以将此反馈合并到重新训练模型时?

目前还不清楚"将[Word2Vec模型]转换为DocToVec"是什么意思。gensimDoc2Vec类不使用或不需要Word2Vec模型作为输入。

但是,如果你的语料库有很多手工策划的"这是一个好建议"或"这是一个坏建议"对,你可以使用模型的评分来比较模型,并训练许多变体模型(具有不同的模型参数值,如sizewindowmin_countsample等),选择在测试中得分最高的模型。

这种自动参数搜索是使用真实评估数据的性能来调整像Word2Vec这样的无监督模型的最直接方法。

(根据数据和问题域的具体情况,您可能还会开始注意到模型更好或更差的模式,这有助于您手动调整部分数据预处理。例如,错误情况可能会建议对大写或标记化进行不同的处理。

最新更新