python的R的NA等价物是什么?
更具体地说:R有NaN、NA、NULL、Inf和-Inf。NA通常用于缺少数据的情况。python的等价物是什么?
numpy和pandas等库如何处理缺失的值?
scikit学习如何处理缺失的值?
python 2.7和python 3有什么不同吗?
numpy中的nan
可以很好地处理许多函数:
>>> import numpy as np
>>> a = [1, np.nan, 2, 3]
>>> np.nanmean(a)
2.0
>>> np.nansum(a)
6.0
>>> np.isnan(a)
array([False, True, False, False], dtype=bool)
Scikit learn当前不处理丢失的值。对于大多数机器学习算法,尚不清楚如何处理缺失的值,因此我们依赖于用户在将其提供给算法之前对其进行处理。Numpy没有"丢失"的值。Pandas使用NaN,但在数字算法中可能会导致混淆。使用屏蔽数组是可能的,但我们在scikit-learn中还没有这样做。
对于pandas
,请看一看。
http://pandas.pydata.org/pandas-docs/dev/missing_data.html
熊猫使用CCD_ 3。您可以使用isnull()
或not null()
测试空值,使用dropna()
等将它们从数据帧中删除。datetime
对象的等价物是NaT