在python中创建了一个大数据帧(几百万行,几千列)Pandas。该数据帧将使用PyRserve传递给R。这必须很快——最多几秒钟。
pandas中有一个to_json函数。对于这样大的对象,往返json对话是唯一的方法吗?这么大的物体可以吗?
我总是可以把它写到磁盘上并读取(快速使用fread,这就是我所做的),但最好的方法是什么?
在没有尝试过的情况下,to_json
似乎是一个非常糟糕的主意,随着数据帧的增大,情况会变得更糟,因为这在写入和读取数据时都会产生大量开销。
我建议使用rpy2(panda直接支持它),或者,如果你想在磁盘上写一些东西(可能是因为数据帧只生成一次),你可以使用HDF5(有关使用这种格式连接panda和R的更多信息,请参阅本线程)。