Spark SQL可以在不运行任何Map/Reduce(/Yarn)的情况下对配置单元表执行吗



据我所知,Spark SQL直接读取hdfs文件,这里不需要M/R。具体来说,没有使用基于Map/Reduce的Hadoop输入/输出格式(特殊情况下,如HBase)

那么,在一个正常运行的配置单元服务器上是否存在任何内置的依赖关系呢?还是只需要

  • a) Spark独立
  • b) HDFS和
  • c) 运行的配置单元元存储服务器

    • 即纱线/MRV1是否需要

访问配置单元文件的hadoop相关I/O格式似乎包括:

  • 文本输入/输出格式
  • ParquetFile输入/输出格式

Spark SQL/Catalysis是否可以读取以这些格式存储的配置单元表——只运行配置单元Metastore服务器?

是。

Spark SQL自述:

配置单元支持(sql/Hive)-包括一个名为HiveContext的SQLContext扩展,允许用户使用HiveQL的子集编写查询,并使用HiveSerDes访问配置单元Metastore中的数据。还有一些包装器,允许用户运行包括配置单元UDF、UDAF和UDTF的查询。

这是通过依赖于用于读取数据的配置单元库来实现的。但处理过程发生在Spark内部。所以不需要MapReduce或YARN。

相关内容

  • 没有找到相关文章

最新更新