是否有可能在数据流阶段模型文件?

我正面临部署数据流管道的艰难时期。感谢GCP文件…下面是我想要达到的目标。
我有4个深度学习模型(二进制文件每个1gb)。我想从所有4个模型中得到预测结果。所以我在桶里搅拌了所有的4个模型。在我的管道里，我有。

download_blob(......, destination_file_name = 'model.bin')            
fasttext.load_model('model.bin')

它工作得很好，但我有以下担心。

每次创建作业时，它都会下载这些文件，这会消耗大量的时间。如果我调用100个job，那么模型就会被下载100次。我有什么办法可以避免吗?
是否有任何方法可以将这些文件放在某个位置，以便即使我触发作业100次，模型也只下载一次?

正如在GCP数据流计算图和作业执行中提到的，您可以将模型数据放入自定义容器中。当然，容器本身仍然需要驻留在工作线程上。

你也可以考虑是否一个单一的管道(可能是流如果输入不知道提前)会更好地满足您的需求比许多连续运行。

相关内容