这是我目前在工作中面临的一种情况:
- 我们目前有 300GB+ 的生产数据(而且每天都在增加(。它在一个君主的喧嚣中 数据
- 科学团队成员正在研究一些需要一次访问所有这些数据的算法,这些算法可能会就地更新数据,因此,他们已经在开发环境中复制了数据以供使用,直到他们确定他们的代码有效。
- 如果多个开发人员正在运行他们的算法,那么所有/其中一些开发人员最终可能会产生意外的输出,因为其他算法也在更新数据
如果每个人都有自己的数据副本,这个问题很容易解决!
但是,考虑到数据量,我每天向他们(目前有 8 名开发人员(提供他们的独家副本是不可行的。即使我自动化了这个过程,我们也必须等到通过网络完成复制
- 我希望有一种面向未来的方法,考虑到我们很快就会处理TB的数据
我假设许多组织都会面临这样的问题,并想知道其他人如何处理这种情况。
我非常感谢对此的任何指示、线索和解决方案。
谢谢
您可以尝试对复制的数据使用快照,以便每个开发人员都可以拥有自己的数据"副本"。请参阅快照定义,并咨询云提供商是否可以提供可写快照。
请注意,快照几乎是即时创建的,并且在创建时它们几乎不需要存储空间,因为该技术使用指针而不是数据本身。不幸的是,每个快照都可以增长到原始卷大小,因为任何数据更改都会启动物理数据复制:隐藏在该过程背后的技术通常是 CoW - 写入时复制。因此,不受控制的快照可能会"吃掉"您所有的可用存储空间,这是一个严重的危险。