如何使用Dataproc Pyspark在BigQuery中创建外部表



我的用例包括使用Pyspark代码在Bigquery中创建一个外部表。数据源是JSON数据所在的Google云存储桶。我正在将JSON数据读取到数据帧中,并希望创建一个外部Bigquery表。截至目前,该表正在创建中,但它不是外部表。

df_view.write
.format("com.google.cloud.spark.bigquery")
.option('table', 'xyz-abc-abc:xyz_zone.test_table_yyyy')
.option("temporaryGcsBucket","abcd-xml-abc-warehouse")
.save(mode='append',path='gs://xxxxxxxxx/')

第页。S.-我正在使用spark-bigquery连接器来实现我的目标。

如果有人遇到同样的问题,请告诉我。

目前,spark-bigquery连接器不支持写入外部表。请创建一个问题,我们将很快尝试添加它。

你当然可以分两步来完成:

  • 将JSON文件写入GCS
  • 使用BigQuery API来创建外部表

最新更新