使用pyRserve将pandas数据帧转换为R

在python中创建了一个大数据帧（几百万行，几千列）Pandas。该数据帧将使用PyRserve传递给R。这必须很快——最多几秒钟。

pandas中有一个to_json函数。对于这样大的对象，往返json对话是唯一的方法吗？这么大的物体可以吗？

我总是可以把它写到磁盘上并读取（快速使用fread，这就是我所做的），但最好的方法是什么？

在没有尝试过的情况下，to_json似乎是一个非常糟糕的主意，随着数据帧的增大，情况会变得更糟，因为这在写入和读取数据时都会产生大量开销。

我建议使用rpy2（panda直接支持它），或者，如果你想在磁盘上写一些东西（可能是因为数据帧只生成一次），你可以使用HDF5（有关使用这种格式连接panda和R的更多信息，请参阅本线程）。

相关内容