使用熊猫合并多个.csv文件并保持原始结构



我有大约 60 个.csv文件,我想将它们合并到熊猫中。到目前为止,我已经使用了这个:

import pandas as pd
import glob
total_files = glob.glob("something*.csv") 
data = [] 
for csv in total_files:
list = pd.read_csv(csv, encoding="utf-8", sep='delimiter', engine='python')
data.append(list)
biggerlist = pd.concat(data, ignore_index=True) 
biggerlist.to_csv("output.csv")

这在某种程度上有效,只有我想合并的文件都具有相同的 15 列结构和相同的标题。当我使用此代码时,只有一列填充了整行的信息,并且每个列名都是所有列名(例如SEARCH_ROW,DATE,TEXT等(的添加。

如何合并这些 csv 文件,同时保持原始文件的结构相同?

编辑:

因此,也许我应该更具体地介绍我的数据。这是我正在使用的.csv文件之一的快照:

如您所见,它只是报纸数据,其中最后一列是"TEXT",当您打开文件时不会完全显示。

这是我使用代码组合数据时外观的一部分。

除此之外,我可以读取这些.csv文件中的任何一个都没有问题

data = pd.read_csv("something.csv",encoding="utf-8", sep='delimiter', engine='python')  

我解决了!

问题是我的.csv文件的文本部分中的逗号数量。因此,在删除所有逗号(仅使用搜索/替换(后,我使用了:

import pandas
import glob
filenames = glob.glob("something*.csv")
df = pandas.DataFrame()
for filename in filenames:
df = df.append(pandas.read_csv(filename, encoding="utf-8", sep=";"))

感谢您的所有帮助。

最新更新