小贝子编程

为给定的一组带有标签的项目创建相似矩阵的最佳方法

本文关键字：创建项目标签相似方法最佳一组 python nlp scikit-learn
更新时间 : 2023-08-23
英文 : Best way to create a similarity matrix for given set of items with tags

我们的数据格式为:

{
  '1': ['Lathi Charge', 'NIT', 'Nirmal Singh']
  '2': ['Kangana Ranaut', 'Hrithik Roshan']
  '3': ['Hrithik Roshan', 'mohenjo daro', 'release date'],
  '4': ['NIT', 'Placements']
  ...
}

字典的键是项，值是与项相关联的标签。条目数在1000万左右，我们想计算每个条目之间的相似度?

与此相关的另一个问题是，如果在运行时出现任何新条目，那么计算其与现有条目相似度的最佳方法是什么?

我能想到的只有一个相似度评分，它可以可靠地处理您正在查看的数据(看起来您的数据类似于语料库研究中收集的数据，其中文档表示为单词袋，每个可能包含语料库中其他文档中不存在的几个单词):余弦相似度。下面是一个很好的解释，还有一些python代码。

为给定的一组带有标签的项目创建相似矩阵的最佳方法

相关内容

最新更新

热门标签：