小贝子编程

google.cloud.spark模块未找到

本文关键字：模块 cloud spark google google-cloud-platform pyspark google-bigquery google-cloud-dataproc
更新时间 : 2024-01-24
英文 : google.cloud.spark module not found

在使用google cloud dataproc运行pyspark作业时。我的代码试图使用pyspark对bigquery进行查询Query = 'select max(cola) from table'Df = spark.read.format('bigquery').load(query)

看这个笔记本。这里有一个示例代码，在dataproc中使用spark执行bigquery查询。

你看到这个错误是因为Dataproc默认不包含Spark BigQuery连接器jar，这就是为什么你需要将它添加到你的Spark应用程序中，如果你想用Spark处理BigQuery中的数据。

下面是关于如何为Dataproc无服务器和Dataproc集群执行此操作的示例文档:

https://cloud.google.com/dataproc-serverless/docs/guides/bigquery-connector-spark-example
https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example

相关内容