Pandas df.to_records() 返回一个 1d numpy 数组



如果这个问题看起来有点幼稚,我提前道歉。我仍在学习熊猫和麻瓜之间的相互作用。

有一个熊猫数据帧,我正在尝试将其转换为数组,以便使用scikit-learn进行分析。我已经尝试了 df.values 和 df.to_records() 来转换它,但由于某种原因,它在转换过程中改变了形状。

这是熊猫中数据帧(df)的前几行。

Index           Code1    Code2       Code3
0               99285    5921         5921
1               99284     NaN         5921
2               99284     NaN         4660
3               99285   42789        42789
4               99284   92321        92321
5               99283     NaN        92321
...
[94 rows x 3 columns]

但是,如果我调用df.values,我会得到以下结果,据我了解,这不是一个数组,因为数组是元组列表。

[['99285' '5921' '5921']
['99284' nan '5921']
['99284' nan '4660']
['99285' '42789' '42789']
['99284' '92321' '92321']
['99283' nan '92321']
...

如果我调用df.to_records(),我会得到以下结果,这是一个数组,但形状不正确,如下所示。

[(0, '99285', '5921', '5921') (1, '99284', nan, '5921')
(2, '99284', nan, '4660') (3, '99285', '42789', '42789')
(4, '99284', '92321', '92321') (5, '99283', nan, '92321')
...
>>>df.to_records().shape
(94,)

有人可以帮助我了解我需要做什么才能获得形状为 (94,3) 的数组吗?

重要说明:如果有帮助,这些列都是字符串(并且需要保留为字符串),而不是整数。

事实上,df.values确实返回了一个numpy.ndarray。 但是,由于它的打印方式,它看起来像一个列表列表。 通过执行type(df.values)或查看其形状df.values.shape == (93, 4)进行检查。

但是,df.to_records() 返回的不是numpy.ndarray,而是numpy.core.records.recarray。 你可以看到它是一个recarray

type(df.to_records())

或者注意到 dtype 看起来很奇怪:

df.to_records().dtype

df.to_records()的形状只是指示有多少条记录,在您的例子中为 94。 记录数组的行为与普通的 numpy 数组不同。 例如,尝试

df.to_records()['Code1']
df.to_records().code1

相关内容

最新更新