为云数据流创建'environment'

当我启动云数据流作业时，我首先导入我需要的库（在python中）。例如：

google-cloud-bigquery==1.3.0
pysftp==0.2.9
google-cloud-storage==1.10.0
pandas==0.23.3
pandas-gbq==0.5.0
jaydebeapi==1.1.1
apache-beam==2.5.0
elasticsearch==6.0.0

这通常需要几分钟才能完成，并且每次使用云数据流时，我都使用相同的环境。有没有办法"保存"这个环境，以便在机器启动时它已经"准备好"了？我见过"模板"，但它只提到了创建变量等，实际上并没有在环境中安装库（或者至少我没有看到）。

如果有人可以向我展示一个将库保存到环境的示例，那就太好了，例如：

elasticsearch==6.0.0

据我了解您的用例，您通过某个服务器运行数据流作业。

在这种情况下，可以为 PyPI 依赖项指定库--requirements_file标志，或为非 PyPI 依赖项指定setup.py。您这里有一些示例和更多详细信息。

相关内容

最新更新

热门标签：