如何根据Python Pandas中自己的排序思想,按具有重复值的字符串列对DataFrame进行排序



我在Python Pandas中有DataFrame,如下所示:

COL1  | COL2 | ...  | COLn
------|------|------|-------
aaa   | AA_x | ...  | ...
bbb   | AA_x |  ... | ...
ggg   | AA_x |  ... | ...
ppp   | AA_x |  ... | ...
aaa   | DD_x |  ... | ...
ggg   | DD_x | ...  |  ...
ppp   | DD_x |  ... | ...
bbb   | DD_x |  ... | ...
....  | ...  | ...  | ...

COL1是字符串数据类型,我需要根据自己的想法对COL1中基于DataFrame的值进行排序,如:aaa,bbb,ppp,ggg,因此我需要以下内容:

COL2   | COL1  | ...   | COLn
-------|-------|-------|------
AA_x   | aaa   | ...   | ...
AA_x   | bbb   | ...   | ...
AA_x   | ppp   | ...   | ...
AA_x   | ggg   | ...   | ...
DD_x   | aaa   | ...   | ...
DD_x   | bbb   | ...   | ...
DD_x   | ppp   | ...   | ...
DD_x   | ggg   | ...   | ...
...    | ....  |  ...  |...

我如何在Python Pandas中做到这一点?我假设手动调用会对这个DataFrame进行排序?

IIUC,您希望按COL1排序,并保持相对aaa/bbb/等的原始顺序。

您可以使用:

order = ['aaa', 'bbb', 'ppp', 'ggg']
df['COL1'] = pd.Categorical(df['COL1'], categories=order, ordered=True)
out = (df.assign(n=df.groupby('COL1').cumcount())
.sort_values(by=['n', 'COL1'])
.drop(columns='n')
)

如果您已经有一个辅助列用于排序(例如COL2(:

order = ['aaa', 'bbb', 'ppp', 'ggg']
df['COL1'] = pd.Categorical(df['COL1'], categories=order, ordered=True)
out = df.sort_values(by=['COL2', 'COL1'])

最新更新