Impala或Hive以火花为执行引擎



我想设计Web UI,从HDFS获取数据。我想使用此数据存储在HDF中。我有自己的自定义报告格式。我正在编写REST API来获取数据。但是运行蜂巢查询给出了延迟问题,因此我想要不同的方法,我可以想到两个。

  1. 使用Impala创建表。但是我不确定对Impala的休息支持。

  2. 使用Hive,而不是MR使用Spark作为执行引擎。。

  3. Spark-Job-Server提供休息支持,并使用Spark-SQL获取数据。

哪种方法适合或对此有更好的方法?请任何人都可以帮忙,因为我很新。

,如果延迟是主要考虑因素,我更喜欢选择黑斑羚。它专门用于HDFS上的SQL处理,并且做得很好。关于REST API和您正在实现的应用程序逻辑,这似乎是一个很好的例子

相关内容

  • 没有找到相关文章

最新更新