我的用例包括使用Pyspark代码在Bigquery中创建一个外部表。数据源是JSON数据所在的Google云存储桶。我正在将JSON数据读取到数据帧中,并希望创建一个外部Bigquery表。截至目前,该表正在创建中,但它不是外部表。
df_view.write
.format("com.google.cloud.spark.bigquery")
.option('table', 'xyz-abc-abc:xyz_zone.test_table_yyyy')
.option("temporaryGcsBucket","abcd-xml-abc-warehouse")
.save(mode='append',path='gs://xxxxxxxxx/')
第页。S.-我正在使用spark-bigquery连接器来实现我的目标。
如果有人遇到同样的问题,请告诉我。
目前,spark-bigquery连接器不支持写入外部表。请创建一个问题,我们将很快尝试添加它。
你当然可以分两步来完成:
- 将JSON文件写入GCS
- 使用BigQuery API来创建外部表