如何在Pandas和Pyspark中做一个热编码



我有一个数据框架如下:

id  country    amount    city  
1  France       4         Paris
2  Italy        9         Naples

我想把它转换成

id amount    city    France   Italy  
1  4        Paris     1        0
2  9        Naples    0        1

我如何分别使用Pandas和Pyspark实现这一点?

在熊猫中你可以使用pd.get_dummies()

df = pd.get_dummies(df, columns=['country'])

最新更新