我必须在pandas中读取大量.csv文件并将它们连接起来。总大小约为10gb的数据和连接在一起给我内存错误。
我不确定我是否可以一个文件一个文件地读取它们,因为最终我必须应用SMOTE来平衡最终的数据帧,所以我需要完整的数据集。
我该怎么办?
我不知道Smote是什么,但这是否回答了你的问题?
将多个csv文件导入pandas并连接到一个DataFrame
,或者这个。
https://pandas.pydata.org/docs/reference/api/pandas.concat.html