使用GCP Composer运行配置单元查询



所以我计划使用GCP Composer来运行几个Hive作业。

将配置单元与Dataproc一起使用是最好的方法吗?

数据应该存储在哪里?Dataproc可以从谷歌云存储桶中读取数据吗?

在dataproc中提交配置单元作业的方法很少
YESdataproc从google bucket读取数据。我已经在这里回答了这个问题

很少有wasy可以在dataporc中提交你的蜂窝作业
1(通过选择查询选项,可以直接下达命令
2(您可以选择查询文件选项,然后提及文件的位置(谷歌存储(。例如Here

现在来谈谈您的第一个问题,将hive与Dataproc一起使用是最好的方法吗-
这完全取决于您的要求。有很多工作选择,你必须根据自己的要求进行选择,因此这是最好的。如果你能详细说明你的要求,我本可以回答得更清楚

好吧,我可以给你一个HIVE JOBS的要点,让你的经理解决你的要求。

您可以在Hive作业中执行以下操作:

  • 您可以提供内联查询(一个或多个(
  • 您可以为查询命令表单提供查询文件(一个或多个(
  • 您可以在配置单元中添加jar文件,这些文件可以用于任何目的,例如UDF(一个或多个(
  • 您可以添加其他属性来配置作业
  • 你可以自动化作业
    这都是关于基本的蜂房工作

Airflow Data Proc Documentation拥有您可以使用的所有可用运算符。

是的,Dataproc可以从GCS Bucket读取数据。例如,请阅读以下内容:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table

然后,您可以使用DataProcHiveOperator使用Cloud Composer在其上运行查询。

最新更新