小贝子编程

为40个数据帧加速pandas-concat函数，每个数据帧有100万行和100列

本文关键字：数据帧 100万 100列加速 40个 pandas-concat 函数 python python-3.x multithreading python-2.7 multiprocessing
更新时间 : 2023-09-15
英文 : speed up pandas concat function for 40 data frames each having 1 million rows and 100 columns

我想为大数据帧加速Pandaconcat()函数。

我有40个数据帧，每个数据帧有100万行和100列(列可以是任何东西：布尔、字符串、整数等(。我们已经尝试使用dask等在集群上运行它。结果还没有出来！

任何想法都将不胜感激。

如果我理解正确，您需要将40个形状为(1M，100(的数据帧连接到一个df中，得到(40M，100(形状。

如果是这种情况，您可以这样做(用Numpy编写，但这个想法是适用的(：

out = np.zeros((4000000, 10))
row_size = 1000000
for i in range(40):
out[i * row_size : i * row_size + row_size, :] = datai #ith dataframe

相关内容