我知道这个问题有点奇怪。我爱Hadoop &;HDFS,但最近用Hive Metastore做SparkSQL。
我想使用SparkSQL作为一个垂直SQL引擎来运行跨不同数据源的OLAP查询,如RDB, Mongo, Elastic…没有ETL过程。然后我注册不同的模式作为外部表在Metastore与相应的Hive存储处理程序。
此外,在我的工作中没有使用HDFS作为数据源。然后,给定Map/R已经被Spark引擎取代。这听起来对我来说,Hadoop/HDFS是无用的,但基础安装Hive。我不想全买。
我想知道如果我只启动Hive metastore service而不启动Hadoop/HDFS来支持SparkSQL,会出现什么样的问题?我会把自己放进丛林里吗?
你需要的是"Hive Local Mode"(在页面中搜索"Hive, Map-Reduce and Local-Mode")
这也可能有帮助。
只有在本地进行试验时才建议使用此配置。但在这种情况下,你只需要转移灶。
Also from here;
Spark SQL使用Hive Metastore,即使我们没有配置它。在未配置时,它使用默认的Derby DB作为metastore。
这看起来很合法;
- 在Hive中安排你的metastore
- 以本地模式启动Hive
- 让Spark使用Hive metastore
- 使用Spark作为Hive支持的所有数据源的SQL引擎。