如何将 Spark 数据帧插入到 Hive 内部表



在追加模式下将 DF 插入 Hive 内部表的正确方法是什么?似乎我们可以使用"saveAsTable"方法直接将DF写入Hive,或者将DF存储到临时表,然后使用查询。

df.write().mode("append").saveAsTable("tableName")

df.registerTempTable("temptable") 
sqlContext.sql("CREATE TABLE IF NOT EXISTS mytable as select * from temptable")

第二种方法是追加记录还是覆盖记录?

有没有其他方法可以有效地将 DF 写入 Hive 内部表?

自从写完答案以来,这里的两个选项都不适合我/可能贬值了。

根据最新的 spark API 文档(适用于 Spark 2.1(,它使用的是 DataFrameWriter 类中的 insertInto() 方法

我正在使用Python PySpark API,但在Scala中也是如此:

df.write.insertInto(target_db.target_table,overwrite = False)

以上对我有用。

df.saveAsTable("tableName", "append")已被弃用。相反,您应该采用第二种方法。

sqlContext.sql("CREATE TABLE IF NOT EXISTS mytable as select * from temptable")

如果表不存在,它将创建表。当您第二次运行代码时,您需要删除现有表,否则您的代码将异常退出。

另一种方法,如果您不想删除表。单独创建一个表,然后将数据插入到该表中。

下面的代码将数据追加到现有表中

sqlContext.sql("insert into table mytable select * from temptable")

下面的代码会将数据覆盖到现有表中

sqlContext.sql("insert overwrite table mytable select * from temptable")

这个答案是基于Spark 1.6.2。如果您使用的是其他版本的Spark,我建议您检查相应的文档。

您也可以插入并覆盖要插入的分区,您可以使用动态分区来完成。

spark.conf.set("hive.exec.dynamic.partition.mode", "nonstrict")
temp_table = "tmp_{}".format(table)
df.createOrReplaceTempView(temp_table)
spark.sql("""
    insert overwrite table `{schema}`.`{table}`
    partition (partCol1, partCol2)
      select col1       
           , col2       
           , col3       
           , col4   
           , partCol1
           , partCol2
    from {temp_table}
""".format(schema=schema, table=table, temp_table=temp_table))

相关内容

  • 没有找到相关文章

最新更新