使用Python中的余弦相似性的向量的值



场景

i有一个数据集,其最后一列中有NAN值,该数据集需要仅使用矢量余弦&皮尔逊相关;之后,将进一步获取数据以进行聚类。

问题

我的情况必须使用 vector cosine Pearson Corelation

这是我的数据集的一部分 POST_DF1 使用PANDAS

从CSV取
       uid     iid       rat
1    303.0   785.0  3.000000
2    291.0  1042.0  4.000000
3    234.0  1184.0  2.000000
4    102.0   768.0  2.000000
254  944.0   170.0  5.000000
255  944.0   171.0  5.000000
256  944.0   172.0       NaN
257  944.0   173.0       NaN
258  944.0   174.0       NaN

现在使用此命令

将其纳入向量(只是为了使其变得简单,需要提出建议)
vect_1 = post_df1.iloc[:, 2].values

然而,使用sklearn.preprocessing的类称为Imputer的类,有Mean, Median & Most frequent方法可用,但无法根据我的方案工作。

问题

  1. 除了惊喜之外,还有其他包裹(尼古拉斯·拥抱),用于Vector Cosine&Pearson Mehtod
  2. 是否可以通过sklearn中的函数/方法进行余弦&皮尔森?
  3. 其他方法/出路?

余弦壁画和皮尔逊相关性仅是插补方法中的参数,而不是插补方法。有多种插补方法,例如KNN,小鼠,SVD和基质分解。例如,可以将余弦层静态用作插补方法的一个KNN的参数,但找不到其实现本身。fancyimpute软件包作为包裹可能会有所帮助。以下是链接。github- hammerlab/fancyimpute:python https://github.com/hammerlab/fancyimpute/

相关内容

  • 没有找到相关文章

最新更新