如何将列中的变量合并为一个变量

我正在使用一个数据集，在该数据集中我遇到了以下情况：

df2['Shape'].value_counts(normalize=True)

Round       0.561806
Princess    0.090057
Emerald     0.070318
Oval        0.070072
Radiant     0.058722
Pear        0.044658
Marquise    0.028374
Asscher     0.023933
Oval        0.015297
ROUND       0.013570
Cushion     0.009623
Marwuise    0.005922
Marquis     0.003948
Uncut       0.003701
Name: Shape, dtype: float64

我的目标是将本栏中的simmilar变量(例如，Round和Round；Oval和Oval(合并为一个变量。我如何将它们组合在一起？

看起来您只是想标准化名称。在运行value_counts:之前，您可以lower或capitalize形状ID

df2['Shape'].str.capitalize().value_counts(normalize=True)

输出：

Round     0.575376
Princess  0.090057
Oval      0.085369
Emerald   0.070318
Radiant   0.058722
Pear      0.044658
Marquise  0.028374
Asscher   0.023933
Cushion   0.009623
Marwuise  0.005922
Marquis   0.003948
Uncut     0.003701

可能在其中一个"椭圆形"；字符串，然后：

df['Shape'].str.capitalize().str.rstrip().value_counts(normalize=True)

相关内容

最新更新

热门标签：