使用hive metastore service,不使用Hadoop/HDFS



我知道这个问题有点奇怪。我爱Hadoop &;HDFS,但最近用Hive Metastore做SparkSQL。

我想使用SparkSQL作为一个垂直SQL引擎来运行跨不同数据源的OLAP查询,如RDB, Mongo, Elastic…没有ETL过程。然后我注册不同的模式作为外部表在Metastore与相应的Hive存储处理程序。

此外,在我的工作中没有使用HDFS作为数据源。然后,给定Map/R已经被Spark引擎取代。这听起来对我来说,Hadoop/HDFS是无用的,但基础安装Hive。我不想全买。

我想知道如果我只启动Hive metastore service而不启动Hadoop/HDFS来支持SparkSQL,会出现什么样的问题?我会把自己放进丛林里吗?

你需要的是"Hive Local Mode"(在页面中搜索"Hive, Map-Reduce and Local-Mode")

这也可能有帮助。

只有在本地进行试验时才建议使用此配置。但在这种情况下,你只需要转移灶。

Also from here;

Spark SQL使用Hive Metastore,即使我们没有配置它。在未配置时,它使用默认的Derby DB作为metastore。

这看起来很合法;

  1. 在Hive中安排你的metastore
  2. 以本地模式启动Hive
  3. 让Spark使用Hive metastore
  4. 使用Spark作为Hive支持的所有数据源的SQL引擎。

相关内容

  • 没有找到相关文章