我正面临部署数据流管道的艰难时期。感谢GCP文件…下面是我想要达到的目标。
我有4个深度学习模型(二进制文件每个1gb)。我想从所有4个模型中得到预测结果。所以我在桶里搅拌了所有的4个模型。在我的管道里,我有。
download_blob(......, destination_file_name = 'model.bin')
fasttext.load_model('model.bin')
它工作得很好,但我有以下担心。
每次创建作业时,它都会下载这些文件,这会消耗大量的时间。如果我调用100个job,那么模型就会被下载100次。我有什么办法可以避免吗?
是否有任何方法可以将这些文件放在某个位置,以便即使我触发作业100次,模型也只下载一次?
正如在GCP数据流计算图和作业执行中提到的,您可以将模型数据放入自定义容器中。当然,容器本身仍然需要驻留在工作线程上。
你也可以考虑是否一个单一的管道(可能是流如果输入不知道提前)会更好地满足您的需求比许多连续运行。