如何在数据框中组合不同的分类属性值

我正在纽约市属性销售数据集(https://www.kaggle.com/new-york-city/nyc-property-sales(。

有一个列"建筑类别类别"，该列有几个不同的分类字符串值。我要做的是仅选择具有最大出现的前4个类别，然后将其余的值组合到一个值中。对于ex-

> dataset["BUILDING CLASS CATEGORY"].value_counts()
01 ONE FAMILY DWELLINGS                         12686
10 COOPS - ELEVATOR APARTMENTS                  11518
02 TWO FAMILY DWELLINGS                          9844
13 CONDOS - ELEVATOR APARTMENTS                  7965
09 COOPS - WALKUP APARTMENTS                     2504
03 THREE FAMILY DWELLINGS                        2318
07 RENTALS - WALKUP APARTMENTS                   1743

所以我想要的是，前4个类别的所有实例都被一些整数值替换，例如

01 ONE FAMILY DWELLINGS instances are replaced by 0
10 COOPS - ELEVATOR APARTMENTS  instances are replaced by 1
02 TWO FAMILY DWELLINGS instances are replaced by 2
13 CONDOS - ELEVATOR APARTMENTS instances are replaced by 3
all the other instances are replaced by integer 4

所以下次我运行命令时，它应该输出这样的东西：

> dataset["BUILDING CLASS CATEGORY"].value_counts()
0     12686
1     11518
2      9844
3      7965
4      6565   #sum of all the other instances

我尝试使用LabElenCoder，但是我的方法越长，因此，如果有有效的方法可以做到这一点，请告诉我。

让我们简单地称您的系列方式：

building_cat = dataset["BUILDING CLASS CATEGORY"]

这就是您已经做过的：

vc = building_cat.value_counts()

现在获取前4名的列表：

top4 = vc[:4].index.tolist()

并将其映射到您的DF：

building_cat  = building_cat.map(lambda x: top4.index(x) if x in top4 else 4)

我没有下载数据集，如果它不起作用，我会在本地尝试。

您可以在需要时更改类型：

building_cat  = building_cat.astype("category")

相关内容

最新更新

热门标签：