管理报告,当我们的数据库是卡桑德拉..火花或索尔.或两者兼而有之



我的数据库是Cassandra (datastax enterprise => linux)。由于它不支持分组依据、聚合等进行报告,根据其基本原理,使用 Cassandra 不是一个好决定。我在谷歌上搜索了这个赤字,发现了一些结果,这个,还有这个。

但我真的变得困惑了!Hive 单独使用其他表。Solr更适合全文搜索之类的。和火花...它对分析很有用,但是,我不明白它最终是否使用Hadoop。

我将有许多报告,至少需要索引和分组。但我不想使用额外的表,这会增加开销。而且,我是.Net(而不是Java)开发人员,我的应用程序也在.Net Framework上。

我不确定你的问题是什么,你的困惑是可以理解的,因为 Cassandra 和 DSE 有很多事情要做。

  • 您正确地指出,Cassandra 不支持您希望用于报告的任何聚合或按功能分组。
  • Solr(DSE搜索)用于对存储在Cassandra中的数据进行临时和全文搜索。 这一次仅适用于一个表。
  • Spark(DSE Analytics)提供分析功能,如Map-Reduce以及过滤和连接表的功能。 这不是实时完成的,因为根据数据加载的不同,数据的处理和洗牌可能很昂贵。
  • Spark不使用Hadoop。 它执行许多相同的作业,但在许多情况下效率更高,因为它允许对数据进行内存中分布式处理。

由于您使用的是DataStax Enterprise,因此其优点是内置了Solr(DSE搜索)的连接器,以提供临时查询,并内置了Spark(DSE Analytics)的连接器,以提供对数据的分析。

由于我不知道您的确切报告要求,因此很难给您具体建议。 如果您能提供有关您将运行哪种报告(计划与临时等)的其他详细信息,我可能会为您提供更多帮助。

最新更新