Gensim Phrase模型参数(阈值)



有人能向我解释一下Gensim的Phrase模型中的参数阈值是做什么的吗?以及在训练包含大量数据的数据集时如何选择它?我搜索了很多教程,但仍然没有弄清楚谢谢

作为一种寻找有趣单词对的相当粗略的统计方法,最佳参数的选择只是一个更适合您的问题。

尝试较小的值&大于默认值,并根据实际最终目标的一些可重复质量评估来测试生成的短语。选择得分最高的值。

注意,由于这种方法完全忽略了语法等内容,因此创建的短语不会可靠地与人类对逻辑单词分组的理解相匹配。在任何一组调整后的参数下,它都会创建一些不需要的短语,并错过其他你认为有用的短语。

因此,它的标记化文本输出通常不适合向最终用户显示,尽管它可能是其他分析步骤的有用输入,如分类器或文档相似性计算。

最新更新