在使用google cloud dataproc运行pyspark作业时。我的代码试图使用pyspark对bigquery进行查询Query = 'select max(cola) from table'Df = spark.read.format('bigquery').load(query)
看这个笔记本。这里有一个示例代码,在dataproc中使用spark执行bigquery查询。
你看到这个错误是因为Dataproc默认不包含Spark BigQuery连接器jar,这就是为什么你需要将它添加到你的Spark应用程序中,如果你想用Spark处理BigQuery中的数据。
下面是关于如何为Dataproc无服务器和Dataproc集群执行此操作的示例文档:
- https://cloud.google.com/dataproc-serverless/docs/guides/bigquery-connector-spark-example
- https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example