我有365个CSV文件,表示唯一样本位置的平均值。每个CSV文件代表不同的一天。例如,我的CSV文件列为Day1.CSV、Day2.CSV、Day3.CSV等等。我可以在Python中导入所有CSV,并使用Pandas将它们转换为数据帧,基本上将所有365个DF附加到一个长数据帧中。这是长数据帧:
Location MEAN Day
A 0.2235 1
B 0.8215 1
C 0.0159 1
D 0.4259 1
A 0.5902 2
B 0.6201 2
C 0.0239 2
D 0.3021 2
A 0.7291 3
B 0.5022 3
C 0.0504 3
D 0.4982 3
等等…
位置是恒定的。
我想做的是使用这个很长的附加DF(在365天内合并),并按位置顺序连接平均值。我想要一个新的MEAN列,它按日期列出所有的方式,用逗号(或其他分隔符)分隔。本质上,这就是我想要的:
Location MEAN
A "0.2235, 0.5902, 0.7291"
B "0.8215, 0.6201, 0.5022"
C "0.0159, 0.0239, 0.0504"
D "0.4259, 0.3021, 0.4982"
每个位置只列出一次,所有平均值按天顺序列出(第1天、第2天……依此类推)
以下是我必须创建大型合并DF:的快速Python代码
combined_csv = pd.concat( [ pd.read_csv(f) for f in Files ] )
我如何在此基础上生成所需的串联文件,其中按天顺序列出MEAN值?
df1 = df.sort_values(['Location','Day']).reset_index()
df1.groupby(['Location'])['MEAN'].apply(lambda x : ','.join(x))
Location
A 0.2235,0.5902,0.7291
B 0.8215,0.6201,0.5022
C 0.0159,0.0239,0.0504
D 0.4259,0.3021,0.4982
Name: MEAN, dtype: object
您只需要使用cumcount
就可以获得第二级merge
密钥,根据您的需要,文件已订购
combined_csv = pd.concat( [ pd.read_csv(f) for f in Files ],keys=np.arange(len(Files)) ).reset_index(level=0)
Longdf['level_0']=Loandf.groupby('Location').cumcount()
Longdf=Longdf.merge(combined_csv,on=['Location','level_0'],how='left').drop('level_0',1)