OLAP实时查询海量数据-选项



我们有一个OLAP表,有1800亿行和100多列,在Hive中容量接近8TB。大多数列都是维度,我们也有一些度量列。我们希望构建一个实时系统,支持临时查询来运行仪表板应用程序,其中查询应该在10秒以下的延迟内执行。

我们现在正在寻找选项来构建这样一个实时特设查询系统,我们正在检查可能的选项,实际上很难选择一个正确的系统。我们正在考虑

Presto,可用于直接查询hdfs,但我们不确定它是否支持如此大容量的低延迟查询。

Cassandra,根据查询构建预聚合视图。

Druid,用于构建预聚合视图,看起来很有趣,但似乎没有任何企业支持。

在这里,我们实际上正在努力从这些组件中做出选择,我们也不确定我们是否错过了任何其他相关的工具,可能适合这个需求。

我们正在寻找可以与HDFS紧密交互的工具/数据库,我们也可以考虑任何其他工具,如果它的读取性能对大容量很好。

我恳请您帮助指导我的组件选择,也请告诉我,如果我必须看到任何其他的工具。

嗨,正如你在这里看到的https://cwiki.apache.org/confluence/display/Hive/Druid+Integration druid正在与Hive紧密集成,这将能够完全支持你的用例,其中一些数据可以从像druid这样的快速数据存储中查询,并且具有复杂连接的重权重查询可以到Hive。还要注意的是,从上面列出的解决方案中,只有德鲁伊有一个强大的(亚秒延迟)实时摄取消防管,集成了kafka, storm, flink rabitMQ和列表不断…从支持的角度来看,druid有一个非常活跃的开源社区,而且它被数百家公司使用,包括雅虎、NetFlix ....这样的大公司此外,至少有两家公司将提供企业支持,即Hortonworks和Imply。

相关内容

  • 没有找到相关文章

最新更新