google.cloud.spark模块未找到



在使用google cloud dataproc运行pyspark作业时。我的代码试图使用pyspark对bigquery进行查询Query = 'select max(cola) from table'Df = spark.read.format('bigquery').load(query)

看这个笔记本。这里有一个示例代码,在dataproc中使用spark执行bigquery查询。

你看到这个错误是因为Dataproc默认不包含Spark BigQuery连接器jar,这就是为什么你需要将它添加到你的Spark应用程序中,如果你想用Spark处理BigQuery中的数据。

下面是关于如何为Dataproc无服务器和Dataproc集群执行此操作的示例文档:

  • https://cloud.google.com/dataproc-serverless/docs/guides/bigquery-connector-spark-example
  • https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example

相关内容

  • 没有找到相关文章

最新更新