机器学习——查找两个用户配置文件之间的相似性



我有以下属性的用户配置文件。 U ={年龄、性别、国家、种族}找到两个用户之间的相似性的最好方法是什么?例如,我有以下两个用户。u1 = {25 M、美国、白}u2 = {30 M,英国,黑}

我搜索了一下,发现余弦相似度被提到了很多。

聚类分析中对象间相似性度量是一个广泛的课题。

我建议你考虑"分而治之"的方法。将两个用户配置文件之间的相似度作为所有属性相似度的加权平均值。记住,在计算平均值之前,要为属性的相似度设定用户标准化值。平均值的权重应该根据数据和用例来决定。如果您认为其中一个维度更重要,当它在两个配置文件之间匹配时,它应该在整体结果中具有更大的权重。

对于属性距离,您可以尝试:age ->简单欧几里得;性别,种族,国家-> 0/1。如果你有时间,两国之间的距离可以更好地根据地质来定义。或文化相似性(如语言、宗教、政治制度、GDP等)。但可能对最终平均值和群集结果分析的权重进行实验会给你更多的回报;-)

最新更新