数据帧填充子集



我正在处理titanic数据集。我创建了一个新功能,名称中有标题(先生、夫人、硕士、博士…(。我用它来用每个标题的中位数来填充na-age。

titanic_data.loc[titanic_data['Age'].isnull(), 'Age'] = titanic_data.groupby('Title')['Age'].median()[titanic_data['Title']]

我得到无法使用titanic_data['Title]从重复轴重新索引如果我做

titanic_data.loc[titanic_data['Age'].isnull(), 'Age'] = titanic_data.groupby('Title')['Age'].median()['Mr']

它填充了Mr头衔的中位数,知道吗?

transform应该做什么

titanic_data['new'] = titanic_data.groupby('Title')['Age'].transform('median')

最新更新