问题
我正在阅读多个CSV,这些CSV与某个模式匹配,将它们连接到数据框中并在框架内进行一些处理(例如,填充DateTime空白,构建平均值等(。在下一步中,我尝试解开数据框架,然后将它们写入单独的CSV文件(将它们命名为导入的文件 扩展名(到从那里导入的同一目录。串联处理的数据帧如下:
Datetime Value
0 2017-03-03 12:15:00 2.3
1 2017-03-03 12:30:00 2.1
...
n 2017-12-19 12:15:00 5.3
0 2017-05-03 12:15:00 1.3
1 2017-05-03 12:30:00 3.1
...
m 2017-12-19 12:15:00 7.3
...
到目前为止我的代码:
import os
import glob
import pandas as pd
pattern = "*whatever*.csv"
directory_path = "mypath"
files = glob.iglob(directory_path + '/**/' + pattern, recursive=True)
def get_files():
dfs = (pd.read_csv(filename)
for filename in files)
df = pd.concat(dfs)
def process_df():
.... # do some processing
return processed_df
'''this part of code does basically what i want'''
def write_to_csv()
dict_ = {}
for filename in files:
dict_[file] = pd.read_csv(file)
for file in dict_:
with open(os.path.splitext(file)[0] + "_gaps_filled.csv", 'w') as f:
dict_[filename].to_csv(f, sep=',', index=False, header=False)
def write_to_csv()
基本上想要我想要不串联/处理的数据。
问题
如何拆分/解开串联处理的数据框架,将正确的文件名分配给未堆放/拆分的块并将其写入循环中的CSV文件?
*所需的resulut
在数据框中读取匹配的CSV文件 -> Process DataFrame --->将处理的块写入相应的CSV文件名和目录
a.csv a some data a_pro.csv
b.csv to df-------> some data process--->[] to_csv--> b_pro.csv
c.csv ... c_pro.csv
b some data
some data
...
c some data
some data
...
我的方法
我尝试设置键(pd.concat(dfs, keys=filenames
(,以便我可以将文件名分配给串联数据框中的相应块。但是在我的def process_df()
函数中,使用groupby
方法,因此键将"丢失"。
一个透明的解决方案就是在处理过程中与文件名一起添加列。
然后,当您要输出到分开文件时,只需通过文件名过滤并相应地输出。
您的代码可能看起来像这样:
dfs = {i: pd.read_csv(i).assign(filename=i) for i in filenames}
df = pd.concat(dfs.values(), ignore_index=True)
# do your processing here
for k in filenames:
df[df['filename'] == k].drop('filename', 1).to_csv(k+'pro', index=False)