Apache Cassandra Data Schema for Twitter Streaming API



我知道Twissandra这是一个使用Cassandra克隆twitter的例子,但我很有兴趣看看是否有人分享了Cassandra模式,不是克隆twitter,而是用于存储通过twitter流媒体API发布的tweet ?

这在很大程度上取决于你摄取数据后想要对数据做什么类型的查询-我从你之前的问题"转储Twitter流API tweet…"中看到,你可能只是想对它进行大批量处理。

如果是这种情况,您只需要担心负载平衡,确保集群中的每个节点处理1/n的写负载,并包含1/n的数据-使用随机分区并在每个tweet中插入一行,将状态id作为行键将实现这一点。

但是,如果您想要执行像"给我给定用户的所有tweet"这样的查询,您将需要稍微复杂一些的模式,因为上面建议的模式将要求您扫描所有数据。您可以在每行插入多个tweet,行键是用户id,列键是tweet id,值是tweet。然后可以使用get_slice来回答该查询。

一篇很好的(有点相关的)博客文章:http://blog.insidesystems.net/basic-time-series-with-cassandra

最新更新