取消堆叠/拆分数据帧,并将数据帧的部分/块写入分配给键的多个 csv



问题

我正在阅读多个CSV,这些CSV与某个模式匹配,将它们连接到数据框中并在框架内进行一些处理(例如,填充DateTime空白,构建平均值等(。在下一步中,我尝试解开数据框架,然后将它们写入单独的CSV文件(将它们命名为导入的文件 扩展名(到从那里导入的同一目录。串联处理的数据帧如下:

                Datetime    Value
0    2017-03-03 12:15:00    2.3
1    2017-03-03 12:30:00    2.1
...
n    2017-12-19 12:15:00    5.3
0    2017-05-03 12:15:00    1.3
1    2017-05-03 12:30:00    3.1
...
m    2017-12-19 12:15:00    7.3
...

到目前为止我的代码:

import os
import glob
import pandas as pd
    pattern = "*whatever*.csv" 
    directory_path = "mypath"
    files = glob.iglob(directory_path + '/**/' + pattern, recursive=True)
    def get_files():
        dfs = (pd.read_csv(filename)
                for filename in files)
        df = pd.concat(dfs)
    def process_df():
     .... # do some processing
        return processed_df
    '''this part of code does basically what i want'''
    def write_to_csv()
        dict_ = {}
        for filename in files:
            dict_[file] = pd.read_csv(file)
        for file in dict_:
            with open(os.path.splitext(file)[0] + "_gaps_filled.csv", 'w') as f:
            dict_[filename].to_csv(f, sep=',', index=False, header=False)

def write_to_csv()基本上想要我想要不串联/处理的数据。

问题

如何拆分/解开串联处理的数据框架,将正确的文件名分配给未堆放/拆分的块并将其写入循环中的CSV文件?

*所需的resulut

在数据框中读取匹配的CSV文件 -> Process DataFrame --->将处理的块写入相应的CSV文件名和目录

a.csv                  a   some data                              a_pro.csv
b.csv    to df------->     some data   process--->[]   to_csv-->  b_pro.csv
c.csv                       ...                                   c_pro.csv
                       b   some data 
                           some data
                       ...
                       c   some data
                           some data
                       ...

我的方法

我尝试设置键(pd.concat(dfs, keys=filenames(,以便我可以将文件名分配给串联数据框中的相应块。但是在我的def process_df()函数中,使用groupby方法,因此键将"丢失"。

一个透明的解决方案就是在处理过程中与文件名一起添加列。

然后,当您要输出到分开文件时,只需通过文件名过滤并相应地输出。

您的代码可能看起来像这样:

dfs = {i: pd.read_csv(i).assign(filename=i) for i in filenames}
df = pd.concat(dfs.values(), ignore_index=True)
# do your processing here
for k in filenames:
    df[df['filename'] == k].drop('filename', 1).to_csv(k+'pro', index=False)

最新更新