高效地将单行添加到 Pandas 系列或数据帧

我想使用熊猫来实时处理系列。每一秒，我都需要将最新的观察结果添加到现有系列中。我的系列被分组到一个数据帧中，并存储在一个HDF5文件中。

这是我目前的做法：

>> existing_series = Series([7,13,97], [0,1,2]) 
>> updated_series = existing_series.append( Series([111], [3]) )

这是最有效的方法吗？我读过无数的帖子，但找不到任何关注高频数据效率的文章。

编辑：我刚刚读到了模块搁置和泡菜。似乎他们会实现我想要做的事情，基本上将列表保存在磁盘上。因为我的列表很大，所以有没有办法不将完整列表加载到内存中，而是一次有效地附加一个值？

看看 0.10 中的新 PyTables 文档（即将推出），或者您可以从 master 获取。 http://pandas.pydata.org/pandas-docs/dev/whatsnew.html

PyTables实际上非常擅长追加，每秒写入HDFStore就可以了。您想要存储数据帧表。然后，您可以像查询一样选择数据，例如

store.append('df', the_latest_df)
store.append('df', the_latest_df)
....
store.select('df', [ 'index>12:00:01' ])

如果这一切都来自同一个过程，那么这将很好用。如果你有一个编写器进程，然后另一个进程正在读取，这有点棘手（但会根据你正在做的事情正确工作）。

另一种选择是使用消息传递从一个进程传输到另一个进程（然后追加到内存中），这样可以避免序列化问题。

相关内容