我正在尝试使用DataFrameWriter将数据帧保存到Spark1.4中的pyspark中的S3
df = sqlContext.read.format("json").load("s3a://somefile")
df_writer = pyspark.sql.DataFrameWriter(df)
df_writer.partitionBy('col1')
.saveAsTable('test_table', format='parquet', mode='overwrite')
镶木地板文件转到"/tmp/hive/warehouse/...."这是我驱动程序上的本地 TMP 目录。
我确实在hive-site中设置了hive.metastore.warehouse.dir.xml为"s3a://...."位置,但Spark似乎不尊重我的蜂巢仓库设置。
使用 path
。
df_writer.partitionBy('col1')
.saveAsTable('test_table', format='parquet', mode='overwrite',
path='s3a://bucket/foo')
您可以使用insertInto(tablename)
覆盖自1.4
以来的现有表