我已经通过这个链接中的步骤建立了一个运行Presto的Google Dataproc集群。
它工作得很好,我可以通过gcloud命令行工具运行查询,如下面的链接所示。
gcloud dataproc jobs submit hive
--cluster presto-cluster
--region=${REGION}
--execute "SELECT COUNT(*) FROM chicago_taxi_trips_parquet;"
最后,本教程展示了如何通过java应用程序在Presto上运行查询。我正试图用Python找到一个类似的解决方案。有没有一种方法可以通过我的Python应用程序在Dataproc集群上运行查询?
我知道Presto有Python客户端,但我找不到关于如何将其与Dataproc集群上运行的Presto连接的资源。
类似地,有一个Python库可以向Dataproc提交作业,但没有关于如何将Presto查询作业提交到Dataproc集群的资源。
有人能告诉我我们如何连接到Google Dataproc上的Presto并使用Python应用程序远程运行查询吗?
您可以在官方的Dataproc Python客户端库文档中找到如何使用Dataproc Jobs API提交支持的作业(包括Presto(的示例:https://cloud.google.com/dataproc/docs/tutorials/python-library-example#submit_a_job_to_a_cluster