我目前正在使用Kaggle泰坦尼克数据集(train.csv)
- 我可以很好地加载数据。
- 我理解
Embarked
列中有些数据有nan
值。但是,当我试图使用以下代码过滤它时,我得到一个空数组
import pandas as pd
df = df.read_csv(<file_loc>, header=0)
df[df.Embarked == 'nan']
我试图导入numpy.nan
来取代上面的字符串nan
。但是它不工作。
我要找什么-是所有不是'S', 'C', 'Q'的单元格。
后来也意识到....nan
是使用type(df.Embarked.unique()[-1])
的Float类型。有人能帮助我了解如何识别这些nan
细胞吗?
NaN
用于表示缺失值。
- 使用
.isna()
查找它们检测缺失值
- 使用
.fillna(value)
代替它们填写NA/NaN值
col
系列的一些例子:
>>> col
0 1.0
1 NaN
2 2.0
dtype: float64
>>> col[col.isna()]
1 NaN
dtype: float64
>>> col.index[col.isna()]
Int64Index([1], dtype='int64')
>>> col.fillna(-1)
0 1.0
1 -1.0
2 2.0
dtype: float64