我在Python Pandas中有DataFrame,如下所示:
COL1 | COL2 | ... | COLn
------|------|------|-------
aaa | AA_x | ... | ...
bbb | AA_x | ... | ...
ggg | AA_x | ... | ...
ppp | AA_x | ... | ...
aaa | DD_x | ... | ...
ggg | DD_x | ... | ...
ppp | DD_x | ... | ...
bbb | DD_x | ... | ...
.... | ... | ... | ...
COL1是字符串数据类型,我需要根据自己的想法对COL1中基于DataFrame的值进行排序,如:aaa,bbb,ppp,ggg
,因此我需要以下内容:
COL2 | COL1 | ... | COLn
-------|-------|-------|------
AA_x | aaa | ... | ...
AA_x | bbb | ... | ...
AA_x | ppp | ... | ...
AA_x | ggg | ... | ...
DD_x | aaa | ... | ...
DD_x | bbb | ... | ...
DD_x | ppp | ... | ...
DD_x | ggg | ... | ...
... | .... | ... |...
我如何在Python Pandas中做到这一点?我假设手动调用会对这个DataFrame进行排序?
IIUC,您希望按COL1排序,并保持相对aaa/bbb/等的原始顺序。
您可以使用:
order = ['aaa', 'bbb', 'ppp', 'ggg']
df['COL1'] = pd.Categorical(df['COL1'], categories=order, ordered=True)
out = (df.assign(n=df.groupby('COL1').cumcount())
.sort_values(by=['n', 'COL1'])
.drop(columns='n')
)
如果您已经有一个辅助列用于排序(例如COL2(:
order = ['aaa', 'bbb', 'ppp', 'ggg']
df['COL1'] = pd.Categorical(df['COL1'], categories=order, ordered=True)
out = df.sort_values(by=['COL2', 'COL1'])