如果这个问题看起来有点幼稚,我提前道歉。我仍在学习熊猫和麻瓜之间的相互作用。
我有一个熊猫数据帧,我正在尝试将其转换为数组,以便使用scikit-learn进行分析。我已经尝试了 df.values 和 df.to_records() 来转换它,但由于某种原因,它在转换过程中改变了形状。
这是熊猫中数据帧(df
)的前几行。
Index Code1 Code2 Code3
0 99285 5921 5921
1 99284 NaN 5921
2 99284 NaN 4660
3 99285 42789 42789
4 99284 92321 92321
5 99283 NaN 92321
...
[94 rows x 3 columns]
但是,如果我调用df.values
,我会得到以下结果,据我了解,这不是一个数组,因为数组是元组列表。
[['99285' '5921' '5921']
['99284' nan '5921']
['99284' nan '4660']
['99285' '42789' '42789']
['99284' '92321' '92321']
['99283' nan '92321']
...
如果我调用df.to_records()
,我会得到以下结果,这是一个数组,但形状不正确,如下所示。
[(0, '99285', '5921', '5921') (1, '99284', nan, '5921')
(2, '99284', nan, '4660') (3, '99285', '42789', '42789')
(4, '99284', '92321', '92321') (5, '99283', nan, '92321')
...
>>>df.to_records().shape
(94,)
有人可以帮助我了解我需要做什么才能获得形状为 (94,3)
的数组吗?
重要说明:如果有帮助,这些列都是字符串(并且需要保留为字符串),而不是整数。
事实上,df.values
确实返回了一个numpy.ndarray
。 但是,由于它的打印方式,它看起来像一个列表列表。 通过执行type(df.values)
或查看其形状df.values.shape == (93, 4)
进行检查。
但是,df.to_records()
返回的不是numpy.ndarray
,而是numpy.core.records.recarray
。 你可以看到它是一个recarray
type(df.to_records())
或者注意到 dtype 看起来很奇怪:
df.to_records().dtype
df.to_records()
的形状只是指示有多少条记录,在您的例子中为 94。 记录数组的行为与普通的 numpy 数组不同。 例如,尝试
df.to_records()['Code1']
df.to_records().code1