我有一个熊猫数据框,看起来像这样
1 0 0 0 0 2 0 0 0 0 0 ... 0 0 1 2 0 0 0 0 0 0
2 0 0 0 3 0 0 0 4 0 0 ... 0 5 0 0 3 0 0 [1, 3] 0 0
3 0 0 0 0 0 0 0 2 0 0 ... 6 6 0 [2, 4] 0 2 0 0 0 0
4 1 0 6 1 0 0 0 0 0 0 ... 0 0 0 0 4 0 0 5 0 0
5 0 0 0 0 6 0 0 [2, 7] 0 0 ... 0 0 0 0 0 0 0 0 0 0
我正在尝试使用 PCA 来降低数据的维度,但数据中有些点超过 1 维,如下所示[2, 7]
所以当我运行PCA时,我收到此错误
data = pca.fit_transform(z)
ValueError: could not convert string to float: '[1, 3]'
我该如何处理
当观测值具有不同的长度时,香草PCA不起作用。
如果[1,3]
表示该单个单元格有两个数据点,请使用汇总函数(例如平均值或中位数)首先为该单元格建立单个值,然后运行 PCA。
(此外,您对这些字段的dtype
似乎很str
- 请记住转换为数字类型。