我有以下数据框:
pp b pp b
5 0.001464 6 0.001853
5 0.001459 6 0.001843
有没有一种方法可以将同名列成多行的列列?
这是所需的输出:
pp b
5 0.001464
5 0.001459
6 0.001853
6 0.001843
尝试使用axis = 1
尝试groupby
df.groupby(df.columns.values, axis=1).agg(lambda x: x.values.tolist()).sum().apply(pd.Series).T.sort_values('pp')
Out[320]:
b pp
0 0.001464 5.0
2 0.001459 5.0
1 0.001853 6.0
3 0.001843 6.0
wide_to_long
s=pd.Series(df.columns)
df.columns=df.columns+s.groupby(s).cumcount().astype(str)
pd.wide_to_long(df.reset_index(),stubnames=['pp','b'],i='index',j='drop',suffix='d+')
Out[342]:
pp b
index drop
0 0 5 0.001464
1 0 5 0.001459
0 1 6 0.001853
1 1 6 0.001843
使用numpy
:
res = pd.DataFrame({'pp': df['pp'].values.T.ravel(),
'b': df['b'].values.T.ravel()})
print(res)
b pp
0 0.001464 5
1 0.001459 5
2 0.001853 6
3 0.001843 6
或不明确引用特定列:
res = pd.DataFrame({i: df[i].values.T.ravel() for i in set(df.columns)})
让我们使用熔体,cumcount和unstack:
dm = df.melt()
dm.set_index(['variable',dm.groupby('variable').cumcount()])
.sort_index()['value'].unstack(0)
输出:
variable b pp
0 0.001464 5.0
1 0.001459 5.0
2 0.001853 6.0
3 0.001843 6.0
我有些惊讶,没有人提到到目前为止使用pd.concat ...在下面看一个:
df1 = pd.DataFrame({'Col1':[1,2,3,4], 'Col2':[5,6,7,8]})
df1
Col1 Col2
0 1 5
1 2 6
2 3 7
3 4 8
现在如果您进行:
df2 = pd.concat([df1,df1])
您得到:
Col1 Col2
0 1 5
1 2 6
2 3 7
3 4 8
0 1 5
1 2 6
2 3 7
3 4 8
这是您想要的,不是吗?
如果您知道前方的重复数,则使用numpy非常容易:
import numpy as np
import pandas as pd
repetitions=5
rows=2
original_columns=list('ab')
df=pd.DataFrame(np.random.randint(0,10,[rows,len(original_columns)*repetitions]), columns=original_columns*repetitions)
display(df)
a b a b a b a b a b
0 6 4 7 5 2 5 3 1 4 3
1 1 5 4 9 6 2 9 5 3 6
# now the interesting part:
df=pd.concat(np.hsplit(df, repetitions))
display(df)
a b
0 6 4
1 1 5
0 7 5
1 4 9
0 2 5
1 6 2
0 3 1
1 9 5
0 4 3
1 3 6
一个选项是与pyjanitor的pivot_longer一起使用 - 在这种情况下,我们利用了pp
之后是b
的事实 - 我们可以安全地将它们配对并将其重塑为两列。
# pip install pyjanitor
import pandas as pd
import janitor
arr = ['pp', 'b']
df.pivot_longer(index = None, names_to = arr, names_pattern = arr)
pp b
0 5 0.001464
1 5 0.001459
2 6 0.001853
3 6 0.001843