我在这里很新,我要预先感谢所有会花时间阅读此问题的人。
我们正在使用TF-IDF构建推荐系统来生成文档的归一化向量。基于用户与文档的交互(例如,不喜欢,花时间在上面等...(,我们想生成遵循与文档本身相同结构的用户配置文件。
虽然有很多关于推荐系统和基于内容过滤的文献的文献,但对用户偏好本身的构造几乎没有什么。我并不是要问一个"解决方案",而是要我们指向正确的方向(或简单的方向(。我们可能会自己做些事情,但是如果已经开发了解决方案,则无需重新发明轮子。
非常感谢!丹尼尔
您的问题很难理解,但根据我理解的内容,我只想分享一个简单的想法,它可能会引导您走上正确的道路:
首先,您可以将TFIDF向量视为高维矢量空间的一部分。假设文档相当分组为簇,则可以尝试将用户投射到这些群集中,并选择最接近的群集的元素。但是,为此,我建议不要使用多个标签,而只是"喜欢"。
用户向量可能是他喜欢的文档的TFIDF向量的平均值。但是,只有当用户具有均匀的偏好(最好仅来自一个群集(时,这才能很好地工作,因为如果他喜欢遥远的群集中的很多文档,他会发现自己之间的群集可能不一定反映出他的利益。但是,如果偏好的结构逐渐发挥作用,则可以很好地工作。
您可以通过确定距用户向量的最接近的群集,然后从该集群中选择其他文档作为建议来进行。
对于距离,您可以从余弦距离开始,例如,您可以使用一个简单的K-Nearift邻居算法找到簇(请参阅Scikit Learn(。