为云数据流创建'environment'



当我启动云数据流作业时,我首先导入我需要的库(在python中)。例如:

google-cloud-bigquery==1.3.0
pysftp==0.2.9
google-cloud-storage==1.10.0
pandas==0.23.3
pandas-gbq==0.5.0
jaydebeapi==1.1.1
apache-beam==2.5.0
elasticsearch==6.0.0

这通常需要几分钟才能完成,并且每次使用云数据流时,我都使用相同的环境。有没有办法"保存"这个环境,以便在机器启动时它已经"准备好"了?我见过"模板",但它只提到了创建变量等,实际上并没有在环境中安装库(或者至少我没有看到)。

如果有人可以向我展示一个将库保存到环境的示例,那就太好了,例如:

elasticsearch==6.0.0

据我了解您的用例,您通过某个服务器运行数据流作业。

在这种情况下,可以为 PyPI 依赖项指定库--requirements_file标志,或为非 PyPI 依赖项指定setup.py。您这里有一些示例和更多详细信息。

最新更新