卡桑德拉删除最佳实践



我们有实时数据进入我们的系统。我们有在线查询,我们需要服务。为了提供这些在线查询,我们需要对数据进行一些预处理,以便我们可以更快地提供服务。现在我的问题是如何预处理在线实时数据。应该有办法让我知道数据是否已经被处理过。为了找到这种差异,我有以下方法:

  • 我可以有一个标志,表示数据已处理或未处理,基于此,我可以进一步决定是否处理
  • 我可以有一个列族,在那里我可以插入数据与TTL,和一个主题在一个消息总线像kafka给我行标识符在cassandra,这样我可以处理这行在cassandra
  • 我可以每天有一个列族和一个像kafka这样的消息总线中的主题,它给了我相应列族的行标识符
  • 我可以每天有一个键空间和一个像kafka这样的消息总线中的主题,它给了我相应列族的行标识符

我读到一些地方,如果,删除的数量增加,那么墓碑的数量增加,导致缓慢的查询时间。现在我对我必须在以上四种方法中选择的方法感到困惑,或者有更好的方法来解决这个问题?

根据datastax博客第三种选择可能更合适。卡桑德拉反模式

最新更新