场景
i有一个数据集,其最后一列中有NAN值,该数据集需要仅使用矢量余弦&皮尔逊相关;之后,将进一步获取数据以进行聚类。
问题
我的情况必须使用 vector cosine 和 Pearson Corelation 。
这是我的数据集的一部分 POST_DF1 使用PANDAS
从CSV取 uid iid rat
1 303.0 785.0 3.000000
2 291.0 1042.0 4.000000
3 234.0 1184.0 2.000000
4 102.0 768.0 2.000000
254 944.0 170.0 5.000000
255 944.0 171.0 5.000000
256 944.0 172.0 NaN
257 944.0 173.0 NaN
258 944.0 174.0 NaN
现在使用此命令
将其纳入向量(只是为了使其变得简单,需要提出建议)vect_1 = post_df1.iloc[:, 2].values
然而,使用sklearn.preprocessing
的类称为Imputer
的类,有Mean, Median & Most frequent
方法可用,但无法根据我的方案工作。
问题
- 除了惊喜之外,还有其他包裹(尼古拉斯·拥抱),用于Vector Cosine&Pearson Mehtod
- 是否可以通过sklearn中的函数/方法进行余弦&皮尔森?
- 其他方法/出路?
余弦壁画和皮尔逊相关性仅是插补方法中的参数,而不是插补方法。有多种插补方法,例如KNN,小鼠,SVD和基质分解。例如,可以将余弦层静态用作插补方法的一个KNN的参数,但找不到其实现本身。fancyimpute
软件包作为包裹可能会有所帮助。以下是链接。github- hammerlab/fancyimpute:python https://github.com/hammerlab/fancyimpute/