Pandas中几乎重复的值

我正在做一个项目，我想分析Spotify的一些音乐数据。我遇到了一个问题，我似乎可以找到答案——感谢帮助！

当我运行检索数据的脚本时，它会迭代每个艺术家，并将每个曲目附加到DataFrame中。它正在过滤重复的值，但由于同一首歌可以由多个艺术家发布，因此不会跳过这些条目。所以最后我有几千个条目，看起来像这样：

艺术家	id
喷气式飞机	34Vqb2m74NU6Pb682ymHic
机翼	34Vqb2m74NU6Pb682ymHic
Mac Miller	34Vqb2m74NU6Pb682ymHic

给定数据帧：

In [1625]: df
Out[1625]: 
artist                      id
0         Jet  34Vqb2m74NU6Pb682ymHic
1       Wings  34Vqb2m74NU6Pb682ymHic
2  Mac Miller  34Vqb2m74NU6Pb682ymHic

使用Groupby.agg:

In [1629]: df.groupby('id', as_index=False).agg(', '.join)
Out[1629]: 
id                  artist
0  34Vqb2m74NU6Pb682ymHic  Jet, Wings, Mac Miller

相关内容

最新更新

热门标签：