如何为众多开发者提供大数据仓库的专属副本?

这是我目前在工作中面临的一种情况：

我们目前有 300GB+ 的生产数据(而且每天都在增加(。它在一个君主的喧嚣中
科学团队成员正在研究一些需要一次访问所有这些数据的算法，这些算法可能会就地更新数据，因此，他们已经在开发环境中复制了数据以供使用，直到他们确定他们的代码有效。
如果多个开发人员正在运行他们的算法，那么所有/其中一些开发人员最终可能会产生意外的输出，因为其他算法也在更新数据
如果每个人都有自己的数据副本，这个问题很容易解决！
但是，考虑到数据量，我每天向他们(目前有 8 名开发人员(提供他们的独家副本是不可行的。即使我自动化了这个过程，我们也必须等到通过网络完成复制
我希望有一种面向未来的方法，考虑到我们很快就会处理TB的数据

我假设许多组织都会面临这样的问题，并想知道其他人如何处理这种情况。

我非常感谢对此的任何指示、线索和解决方案。

谢谢

您可以尝试对复制的数据使用快照，以便每个开发人员都可以拥有自己的数据"副本"。请参阅快照定义，并咨询云提供商是否可以提供可写快照。

请注意，快照几乎是即时创建的，并且在创建时它们几乎不需要存储空间，因为该技术使用指针而不是数据本身。不幸的是，每个快照都可以增长到原始卷大小，因为任何数据更改都会启动物理数据复制：隐藏在该过程背后的技术通常是 CoW - 写入时复制。因此，不受控制的快照可能会"吃掉"您所有的可用存储空间，这是一个严重的危险。

相关内容

最新更新

热门标签：