Pandas -如何识别序列中的"nan"值

我目前正在使用Kaggle泰坦尼克数据集(train.csv)

我可以很好地加载数据。
我理解Embarked列中有些数据有nan值。但是，当我试图使用以下代码过滤它时，我得到一个空数组

import pandas as pd
df = df.read_csv(<file_loc>, header=0)
df[df.Embarked == 'nan']

我试图导入numpy.nan来取代上面的字符串nan。但是它不工作。

我要找什么-是所有不是'S'， 'C'， 'Q'的单元格。

后来也意识到....nan是使用type(df.Embarked.unique()[-1])的Float类型。有人能帮助我了解如何识别这些nan细胞吗?

NaN用于表示缺失值。

使用.isna()查找它们
检测缺失值
使用.fillna(value)代替它们
填写NA/NaN值

col系列的一些例子:

>>> col
0    1.0
1    NaN
2    2.0
dtype: float64
>>> col[col.isna()]
1   NaN
dtype: float64
>>> col.index[col.isna()]
Int64Index([1], dtype='int64')
>>> col.fillna(-1)
0    1.0
1   -1.0
2    2.0
dtype: float64

相关内容

最新更新

热门标签：