如何根据Python Pandas中自己的排序思想，按具有重复值的字符串列对DataFrame进行排序

我在Python Pandas中有DataFrame，如下所示：

COL1  | COL2 | ...  | COLn
------|------|------|-------
aaa   | AA_x | ...  | ...
bbb   | AA_x |  ... | ...
ggg   | AA_x |  ... | ...
ppp   | AA_x |  ... | ...
aaa   | DD_x |  ... | ...
ggg   | DD_x | ...  |  ...
ppp   | DD_x |  ... | ...
bbb   | DD_x |  ... | ...
....  | ...  | ...  | ...

COL1是字符串数据类型，我需要根据自己的想法对COL1中基于DataFrame的值进行排序，如：aaa,bbb,ppp,ggg，因此我需要以下内容：

COL2   | COL1  | ...   | COLn
-------|-------|-------|------
AA_x   | aaa   | ...   | ...
AA_x   | bbb   | ...   | ...
AA_x   | ppp   | ...   | ...
AA_x   | ggg   | ...   | ...
DD_x   | aaa   | ...   | ...
DD_x   | bbb   | ...   | ...
DD_x   | ppp   | ...   | ...
DD_x   | ggg   | ...   | ...
...    | ....  |  ...  |...

我如何在Python Pandas中做到这一点？我假设手动调用会对这个DataFrame进行排序？

IIUC，您希望按COL1排序，并保持相对aaa/bbb/等的原始顺序。

您可以使用：

order = ['aaa', 'bbb', 'ppp', 'ggg']
df['COL1'] = pd.Categorical(df['COL1'], categories=order, ordered=True)
out = (df.assign(n=df.groupby('COL1').cumcount())
.sort_values(by=['n', 'COL1'])
.drop(columns='n')
)

如果您已经有一个辅助列用于排序(例如COL2(：

order = ['aaa', 'bbb', 'ppp', 'ggg']
df['COL1'] = pd.Categorical(df['COL1'], categories=order, ordered=True)
out = df.sort_values(by=['COL2', 'COL1'])

相关内容

最新更新

热门标签：