r-从运行在Dataproc集群上的Rstudio连接到BigQuery



我创建了一个Dataproc集群,并使用以下说明成功启动了RStudio服务器:https://cloud.google.com/solutions/running-rstudio-server-on-a-cloud-dataproc-cluster

我还安装了sparklyr并成功创建了一个Spark实例。

sc <- spark_connect(master = "local")

但是,我想知道如何连接到BigQuery。有一个sparkbq库,但我不确定如何传递此处描述的bigquery jar连接器(在运行时(:https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example

您可以使用Dataproc init操作在集群的所有节点上安装spark-bigquery连接器。https://github.com/GoogleCloudDataproc/initialization-actions/tree/master/connectors.

您可能需要使用更新的init操作重新创建集群,然后再次启动RStudio Server。如果您不想这样做,并且您的集群很小,您也可以ssh到节点中,手动下载SparkBigQuery连接器jar。

最新更新