所以我计划使用GCP Composer来运行几个Hive作业。
将配置单元与Dataproc一起使用是最好的方法吗?
数据应该存储在哪里?Dataproc可以从谷歌云存储桶中读取数据吗?
在dataproc中提交配置单元作业的方法很少
YESdataproc从google bucket读取数据。我已经在这里回答了这个问题
很少有wasy可以在dataporc中提交你的蜂窝作业
1(通过选择查询选项,可以直接下达命令
2(您可以选择查询文件选项,然后提及文件的位置(谷歌存储(。例如Here
现在来谈谈您的第一个问题,将hive与Dataproc一起使用是最好的方法吗-
这完全取决于您的要求。有很多工作选择,你必须根据自己的要求进行选择,因此这是最好的。如果你能详细说明你的要求,我本可以回答得更清楚
好吧,我可以给你一个HIVE JOBS的要点,让你的经理解决你的要求。
您可以在Hive作业中执行以下操作:
- 您可以提供内联查询(一个或多个(
- 您可以为查询命令表单提供查询文件(一个或多个(
- 您可以在配置单元中添加jar文件,这些文件可以用于任何目的,例如UDF(一个或多个(
- 您可以添加其他属性来配置作业
- 你可以自动化作业
这都是关于基本的蜂房工作
Airflow Data Proc Documentation拥有您可以使用的所有可用运算符。
是的,Dataproc可以从GCS Bucket读取数据。例如,请阅读以下内容:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table
然后,您可以使用DataProcHiveOperator
使用Cloud Composer在其上运行查询。