我尝试使用pyspark访问Hive orc交易表(在HDF上具有Delta的基础文件(,但我无法通过SparkContext/HiveContext读取交易表。p>/mydim/delta_0117202_0117202
/mydim/delta_0117203_0117203
正式
Spark
尚未支持 hive-acid 表,获取一个full dump/incremental dump of acid table
到常规hive orc/parquet
分区表,然后使用Spark读取数据。
有一个开放的jira saprk-15348,可以增加对阅读 Hive ACID
表。
如果您运行
major compaction
在酸性表上(来自Hive(,那么Spark可以读取base_XXX
目录>目录>目录,但不是Delta Directories Spark-16996在此JIRA中解决了。有一些解决方法可以使用此链接中提到的spark-llap读取酸表。
我认为从
HDP-3.X
hivewarehouseconnector开始,能够支持读取hiveacid表。