如何从JAR提交数据流工作

对于可重复性，我希望能够构建包含数据流动作业的罐子，然后用不同的参数运行它们(例如，通过不同的帐户促进它们(。这也将简化回滚，因为构建将是不可变的。

我目前正在使用Maven的DataflowPipelineRunner运行工作

如何直接从JAR运行数据流？

ah看起来我需要模板。

我认为模板是最有前途的方法，但是当前，如果您想编写批处理作业以写入BigQuery，则需要每次要运行一个模板工作，几乎破坏了模板的好处。(在此处解释(

按照此github readme中的编写，您可以通过调用 mvn package来创建一个捆绑jar，然后以下类似的东西可以使用jar文件提交数据流作业。

java -cp target/google-cloud-dataflow-java-examples-all-bundled-manual_build.jar 
com.google.cloud.dataflow.examples.WordCount 
--project=<YOUR CLOUD PLATFORM PROJECT ID> 
--stagingLocation=<YOUR CLOUD STORAGE LOCATION> 
--runner=BlockingDataflowPipelineRunner

这是我当前选择的方式，因为我需要与BigQuery互动。

相关内容

最新更新

热门标签：