我们开始将DVC与git一起使用,以控制机器学习项目的版本化。对于DVC远程存储,我们使用Google云存储。
我们的数据集是具有100000多个小图像的OCR数据集,总尺寸约为200 MB。使用DVC跟踪我们遇到的下一个问题的数据集:
- 添加用于跟踪的数据集花费了很多时间。
- 上传非常慢。
- 下载非常缓慢。
- 更新/删除/仅在数据集中添加一个图像导致DVC重新计算很多事情:哈希等。
如果我们将数据集进行缩小并跟踪,则从另一种方式进行跟踪,因为单个文件DVC工作得足够快,但是问题是我们无法跟踪特定文件的更改。
目标是对具有下一个功能的大量文件的数据集进行版本控制。
- 每个文件的跟踪。
- 仅进行更改而不是全部数据集。
- 快速结帐/拉力
任何可以接受更好解决方案的建议。
如果我们将数据集进行缩小并跟踪,则从另一种方式进行跟踪,因为单个文件DVC工作得足够快,但是问题是我们无法跟踪特定文件的更改。
zip文件是正确的方法,与git lfs结合使用,以存储该zip文件的许多修订。
您可以使用列出所有图像的文本文件来补充该存档,每个图像都有一个评论描述所做的任何更改的评论:这样,因为TXT文件将与存档的任何新修订版一起进行,您仍然会能够获得档案元素中完成的更改的列表和性质。