略读了Google Cloud DataFlow文档,我的印象是Worker VM运行了特定的预定义Python 2.7环境,没有任何更改的选择。是否可以为工人提供自定义VM图像(使用库,特定应用程序需要的外部命令构建(。是否可以在gcloud dataflow上运行Python 3?
2021 UPDATE
截至今天,这两个问题的答案是肯定的。
- Python 3在DataFlow上支持。
- 自定义容器映像在数据流上支持,请参阅此so答案,此文档页面。
是否可以为工人提供自定义VM图像(使用库,特定应用程序需要的外部命令构建(。是否可以在gcloud dataflow上运行Python 3?
否,两个问题都不。您可以为数据流工作配置计算引擎实例计算机类型和磁盘大小,但是您无法配置诸如已安装的应用程序之类的内容。当前,Apache Beam不支持Python 3.x。
参考:
- https://cloud.google.com/dataflow/pipelines/specifying-exec-params
- https://issues.apache.org/jira/browse/browse/beam-1251
- https://beam.apache.org/get-started/quickstart-py/
python 3支持apache beam状态:https://beam.apache.org/roadmap/python-sdk/#python-3-support
您无法为工人提供自定义VM映像,但是您可以提供设置。Py文件以运行自定义命令并安装库。
您可以在此处找到有关setup.py文件的更多信息:https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/
现在在数据流上支持自定义容器。