Pandas中几乎重复的值



我正在做一个项目,我想分析Spotify的一些音乐数据。我遇到了一个问题,我似乎可以找到答案——感谢帮助!

当我运行检索数据的脚本时,它会迭代每个艺术家,并将每个曲目附加到DataFrame中。它正在过滤重复的值,但由于同一首歌可以由多个艺术家发布,因此不会跳过这些条目。所以最后我有几千个条目,看起来像这样:

艺术家 id
喷气式飞机 34Vqb2m74NU6Pb682ymHic
机翼 34Vqb2m74NU6Pb682ymHic
Mac Miller 34Vqb2m74NU6Pb682ymHic

给定数据帧:

In [1625]: df
Out[1625]: 
artist                      id
0         Jet  34Vqb2m74NU6Pb682ymHic
1       Wings  34Vqb2m74NU6Pb682ymHic
2  Mac Miller  34Vqb2m74NU6Pb682ymHic

使用Groupby.agg:

In [1629]: df.groupby('id', as_index=False).agg(', '.join)
Out[1629]: 
id                  artist
0  34Vqb2m74NU6Pb682ymHic  Jet, Wings, Mac Miller

相关内容

  • 没有找到相关文章

最新更新