我想为大数据帧加速Pandaconcat()
函数。
我有40个数据帧,每个数据帧有100万行和100列(列可以是任何东西:布尔、字符串、整数等(。我们已经尝试使用dask
等在集群上运行它。结果还没有出来!
任何想法都将不胜感激。
如果我理解正确,您需要将40个形状为(1M,100(的数据帧连接到一个df中,得到(40M,100(形状。
如果是这种情况,您可以这样做(用Numpy编写,但这个想法是适用的(:
out = np.zeros((4000000, 10))
row_size = 1000000
for i in range(40):
out[i * row_size : i * row_size + row_size, :] = datai #ith dataframe