Pandas df.to_records() 返回一个 1d numpy 数组

如果这个问题看起来有点幼稚，我提前道歉。我仍在学习熊猫和麻瓜之间的相互作用。

我

有一个熊猫数据帧，我正在尝试将其转换为数组，以便使用scikit-learn进行分析。我已经尝试了 df.values 和 df.to_records（）来转换它，但由于某种原因，它在转换过程中改变了形状。

这是熊猫中数据帧（df）的前几行。

Index           Code1    Code2       Code3
0               99285    5921         5921
1               99284     NaN         5921
2               99284     NaN         4660
3               99285   42789        42789
4               99284   92321        92321
5               99283     NaN        92321
...
[94 rows x 3 columns]

但是，如果我调用df.values，我会得到以下结果，据我了解，这不是一个数组，因为数组是元组列表。

[['99285' '5921' '5921']
['99284' nan '5921']
['99284' nan '4660']
['99285' '42789' '42789']
['99284' '92321' '92321']
['99283' nan '92321']
...

如果我调用df.to_records()，我会得到以下结果，这是一个数组，但形状不正确，如下所示。

[(0, '99285', '5921', '5921') (1, '99284', nan, '5921')
(2, '99284', nan, '4660') (3, '99285', '42789', '42789')
(4, '99284', '92321', '92321') (5, '99283', nan, '92321')
...
>>>df.to_records().shape
(94,)

有人可以帮助我了解我需要做什么才能获得形状为 (94,3) 的数组吗？

重要说明：如果有帮助，这些列都是字符串（并且需要保留为字符串），而不是整数。

事实上，df.values确实返回了一个numpy.ndarray。但是，由于它的打印方式，它看起来像一个列表列表。通过执行type(df.values)或查看其形状df.values.shape == (93, 4)进行检查。

但是，df.to_records() 返回的不是numpy.ndarray，而是numpy.core.records.recarray。你可以看到它是一个recarray

type(df.to_records())

或者注意到 dtype 看起来很奇怪：

df.to_records().dtype

df.to_records()的形状只是指示有多少条记录，在您的例子中为 94。记录数组的行为与普通的 numpy 数组不同。例如，尝试

df.to_records()['Code1']
df.to_records().code1

相关内容

最新更新

热门标签：