Pyspark无法通过SparkContext/HiveContext读取Hive orc Transaction表?我



我尝试使用pyspark访问Hive orc交易表(在HDF上具有Delta的基础文件(,但我无法通过SparkContext/HiveContext读取交易表。p>/mydim/delta_0117202_0117202

/mydim/delta_0117203_0117203

正式 Spark 尚未支持 hive-acid 表,获取一个 full dump/incremental dump of acid table 到常规 hive orc/parquet 分区表,然后使用Spark读取数据。

有一个开放的jira saprk-15348,可以增加对阅读 Hive ACID 表。

的支持。
  • 如果您运行 major compaction 在酸性表上(来自Hive(,那么Spark可以读取 base_XXX 目录>目录>目录,但不是Delta Directories Spark-16996在此JIRA中解决了。

  • 有一些解决方法可以使用此链接中提到的spark-llap读取酸表。

  • 我认为 HDP-3.X hivewarehouseconnector开始,能够支持读取hiveacid表。

相关内容

  • 没有找到相关文章

最新更新