Google Cloud DataFlow工人的自定义VM图像



略读了Google Cloud DataFlow文档,我的印象是Worker VM运行了特定的预定义Python 2.7环境,没有任何更改的选择。是否可以为工人提供自定义VM图像(使用库,特定应用程序需要的外部命令构建(。是否可以在gcloud dataflow上运行Python 3?

2021 UPDATE

截至今天,这两个问题的答案是肯定的。

  1. Python 3在DataFlow上支持。
  2. 自定义容器映像在数据流上支持,请参阅此so答案,此文档页面。

是否可以为工人提供自定义VM图像(使用库,特定应用程序需要的外部命令构建(。是否可以在gcloud dataflow上运行Python 3?

否,两个问题都不。您可以为数据流工作配置计算引擎实例计算机类型和磁盘大小,但是您无法配置诸如已安装的应用程序之类的内容。当前,Apache Beam不支持Python 3.x。

参考:

  1. https://cloud.google.com/dataflow/pipelines/specifying-exec-params
  2. https://issues.apache.org/jira/browse/browse/beam-1251
  3. https://beam.apache.org/get-started/quickstart-py/

python 3支持apache beam状态:https://beam.apache.org/roadmap/python-sdk/#python-3-support

您无法为工人提供自定义VM映像,但是您可以提供设置。Py文件以运行自定义命令并安装库。

您可以在此处找到有关setup.py文件的更多信息:https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/

现在在数据流上支持自定义容器。

最新更新