预测推荐系统中的缺失值



我正在尝试实现非负矩阵分解,以便为推荐引擎项目找到矩阵的缺失值。我正在使用nimfa库来实现矩阵分解。但似乎不知道如何预测缺失的值。此矩阵中缺少的值由0表示。

a=[[ 1.          0.45643546  0.          0.1         0.10327956  0.0225877 ]
 [ 0.15214515  1.          0.04811252  0.07607258  0.23570226  0.38271325]
 [ 0.          0.14433757  1.          0.07905694  0.          0.42857143]
 [ 0.1         0.22821773  0.07905694  1.          0.          0.27105237]
 [ 0.06885304  0.47140452  0.          0.          1.          0.13608276]
 [ 0.00903508  0.4592559   0.17142857  0.10842095  0.08164966  1.        ]]
import nimfa
model = nimfa.Lsnmf(a, max_iter=100000,rank =4)
#fit the model
fit = model()
#get U and V matrices from fit
U = fit.basis()
V = fit.coef()
print numpy.dot(U,V)

但是给出的ans和a几乎相同,我无法预测零值。请告诉我使用哪种方法或任何其他可能的实现以及任何可能的资源。

我想使用这个函数来最大限度地减少预测值的误差。

错误=||a-UV||_F+c*||U|_F+c*||V||_F

其中_F表示frobenius范数

我以前没有使用过nimfa,所以我无法回答如何做到这一点,但使用sklearn可以执行预处理器来转换丢失的值,如下所示:

In [28]: import numpy as np
In [29]: from sklearn.preprocessing import Imputer
# prepare a numpy array 
In [30]: a = np.array(a)
In [31]: a
Out[31]: 
array([[ 1.        ,  0.45643546,  0.        ,  0.1       ,  0.10327956,
         0.0225877 ],
       [ 0.15214515,  1.        ,  0.04811252,  0.07607258,  0.23570226,
         0.38271325],
       [ 0.        ,  0.14433757,  1.        ,  0.07905694,  0.        ,
         0.42857143],
       [ 0.1       ,  0.22821773,  0.07905694,  1.        ,  0.        ,
         0.27105237],
       [ 0.06885304,  0.47140452,  0.        ,  0.        ,  1.        ,
         0.13608276],
       [ 0.00903508,  0.4592559 ,  0.17142857,  0.10842095,  0.08164966,
         1.        ]])

In [32]: pre = Imputer(missing_values=0, strategy='mean')
# transform missing_values as "0" using mean strategy
In [33]: pre.fit_transform(a)
Out[33]: 
array([[ 1.        ,  0.45643546,  0.32464951,  0.1       ,  0.10327956,
         0.0225877 ],
       [ 0.15214515,  1.        ,  0.04811252,  0.07607258,  0.23570226,
         0.38271325],
       [ 0.26600665,  0.14433757,  1.        ,  0.07905694,  0.35515787,
         0.42857143],
       [ 0.1       ,  0.22821773,  0.07905694,  1.        ,  0.35515787,
         0.27105237],
       [ 0.06885304,  0.47140452,  0.32464951,  0.27271009,  1.        ,
         0.13608276],
       [ 0.00903508,  0.4592559 ,  0.17142857,  0.10842095,  0.08164966,
         1.        ]])

你可以在这里阅读更多。