为40个数据帧加速pandas-concat函数,每个数据帧有100万行和100列



我想为大数据帧加速Pandaconcat()函数。

我有40个数据帧,每个数据帧有100万行和100列(列可以是任何东西:布尔、字符串、整数等(。我们已经尝试使用dask等在集群上运行它。结果还没有出来!

任何想法都将不胜感激。

如果我理解正确,您需要将40个形状为(1M,100(的数据帧连接到一个df中,得到(40M,100(形状。

如果是这种情况,您可以这样做(用Numpy编写,但这个想法是适用的(:

out = np.zeros((4000000, 10))
row_size = 1000000
for i in range(40):
out[i * row_size : i * row_size + row_size, :] = datai #ith dataframe

相关内容

  • 没有找到相关文章

最新更新