我正在做推特数据的情感分析。对于这项工作,我做了一些数据集在CSV格式,其中不同的月份在不同的数据集。当我单独对每个数据集进行预处理时,我想将所有数据集保存在一个CSV文件中。但是当我使用pandas dataframe:
编写下面的代码时df.to_csv('dataset.csv', index=False)
删除该数据集以前的数据(行)。有什么办法可以让我把以前的数据也保存在那个文件里吗?这样我就可以把所有的数据合并在一起。谢谢你 ..........
不完全清楚你想从你的问题中得到什么,所以这只是一个猜测,但这样的东西可能是你正在寻找的。如果您一直将数据帧分配给df
,那么新数据将覆盖旧数据。尝试将它们重新分配给不同命名的数据框架,如df1
和df21。然后你可以合并它们。
# vertically merge the multiple dataframes and reassign to new variable
df = pd.concat([df1, df2])
# save the dataframe
df.to_csv('my_dataset.csv', index=False)
在python中,你可以使用带参数'a'的open("file")方法:打开("file" a)。"a"的意思是"追加"。因此,您将在文件末尾添加行。您可以对pandas.dataFrame.to_csv()方法使用相同的参数。例句:
import pandas as pd
# code where you get data and return df
pd.df.to_csv("file", mode='a')
@thehand0:你的代码可以工作,但是效率很低,所以你的脚本需要更长的时间运行。