我正在使用一个数据集,在该数据集中我遇到了以下情况:
df2['Shape'].value_counts(normalize=True)
Round 0.561806
Princess 0.090057
Emerald 0.070318
Oval 0.070072
Radiant 0.058722
Pear 0.044658
Marquise 0.028374
Asscher 0.023933
Oval 0.015297
ROUND 0.013570
Cushion 0.009623
Marwuise 0.005922
Marquis 0.003948
Uncut 0.003701
Name: Shape, dtype: float64
我的目标是将本栏中的simmilar变量(例如,Round和Round;Oval和Oval(合并为一个变量。我如何将它们组合在一起?
看起来您只是想标准化名称。在运行value_counts
:之前,您可以lower
或capitalize
形状ID
df2['Shape'].str.capitalize().value_counts(normalize=True)
输出:
Round 0.575376
Princess 0.090057
Oval 0.085369
Emerald 0.070318
Radiant 0.058722
Pear 0.044658
Marquise 0.028374
Asscher 0.023933
Cushion 0.009623
Marwuise 0.005922
Marquis 0.003948
Uncut 0.003701
可能在其中一个"椭圆形";字符串,然后:
df['Shape'].str.capitalize().str.rstrip().value_counts(normalize=True)