为什么将 np.nan 转换为 int 会导致大量?

我有一个如下所示的numpy数组：

array([['18.0', '11.0', '5.0', ..., '19.0', '18.0', '20.0'],
['11.0', '14.0', '15.0', ..., '45.0', '26.0', '20.0'],
['1.0', '0.0', '1.0', ..., '3.0', '4.0', '17.0'],
...,
['nan', 'nan', 'nan', ..., 'nan', 'nan', 'nan'],
['nan', 'nan', 'nan', ..., 'nan', 'nan', 'nan'],
['nan', 'nan', 'nan', ..., 'nan', 'nan', 'nan']],
dtype='|S230')

但是将其转换为 int 数组会使 np.nan 值成为奇怪的值：

df[:,4:].astype('float').astype('int')
array([[                  18,                   11,                    5,
...,                   19,                   18,
20],
[                  11,                   14,                   15,
...,                   45,                   26,
20],
[                   1,                    0,                    1,
...,                    3,                    4,
17],
...,
[-9223372036854775808, -9223372036854775808, -9223372036854775808,
..., -9223372036854775808, -9223372036854775808,
-9223372036854775808],
[-9223372036854775808, -9223372036854775808, -9223372036854775808,
..., -9223372036854775808, -9223372036854775808,
-9223372036854775808],
[-9223372036854775808, -9223372036854775808, -9223372036854775808,
..., -9223372036854775808, -9223372036854775808,
-9223372036854775808]])

那么如何解决我的问题呢？

据我所知，将浮点Nan转换为整数类型是未定义的行为。该号码：

-9223372036854775808

是最小的 int64，即-2**63.请注意，当我强制int32时，我的系统上会发生同样的事情：

>>> arr
array([['18.0', '11.0', '5.0', 'nan']],
dtype='<U4')
>>> arr.astype('float').astype(np.int32)
array([[         18,          11,           5, -2147483648]], dtype=int32)
>>> -2**31
-2147483648

这完全取决于您期望的结果。nan是浮点型，因此将字符串'nan'转换为浮点数没有问题。但是没有将其转换为int值的定义。

我建议您以不同的方式处理它 - 首先选择您希望所有nan值成为的 spcificint(例如 0(，然后才将整个数组转换为int

a = np.array(['1','2','3','nan','nan'])
a[a=='nan'] = 0 # this will convert all the nan values to 0, or choose another number
a = a.astype('int')

现在a等于

array([1, 2, 3, 0, 0])

相关内容

最新更新

热门标签：