如何从JAR提交数据流工作



对于可重复性,我希望能够构建包含数据流动作业的罐子,然后用不同的参数运行它们(例如,通过不同的帐户促进它们(。这也将简化回滚,因为构建将是不可变的。

我目前正在使用Maven的DataflowPipelineRunner运行工作

如何直接从JAR运行数据流?

ah看起来我需要模板。

我认为模板是最有前途的方法,但是当前,如果您想编写批处理作业以写入BigQuery,则需要每次要运行一个模板工作,几乎破坏了模板的好处。(在此处解释(

按照此github readme中的编写,您可以通过调用 mvn package来创建一个捆绑jar,然后以下类似的东西可以使用jar文件提交数据流作业。

java -cp target/google-cloud-dataflow-java-examples-all-bundled-manual_build.jar 
com.google.cloud.dataflow.examples.WordCount 
--project=<YOUR CLOUD PLATFORM PROJECT ID> 
--stagingLocation=<YOUR CLOUD STORAGE LOCATION> 
--runner=BlockingDataflowPipelineRunner

这是我当前选择的方式,因为我需要与BigQuery互动。

最新更新