我想设计Web UI,从HDFS获取数据。我想使用此数据存储在HDF中。我有自己的自定义报告格式。我正在编写REST API来获取数据。但是运行蜂巢查询给出了延迟问题,因此我想要不同的方法,我可以想到两个。
-
使用Impala创建表。但是我不确定对Impala的休息支持。
-
使用Hive,而不是MR使用Spark作为执行引擎。。
-
Spark-Job-Server提供休息支持,并使用Spark-SQL获取数据。
哪种方法适合或对此有更好的方法?请任何人都可以帮忙,因为我很新。
,如果延迟是主要考虑因素,我更喜欢选择黑斑羚。它专门用于HDFS上的SQL处理,并且做得很好。关于REST API和您正在实现的应用程序逻辑,这似乎是一个很好的例子