如何添加/更新数据与dvc工作流?



我想知道,当我们设置DVC时,我可以简单地添加我的整个目录,dvc add dataset和我的工作流程将是为下一次迭代更新整个数据集文件夹。应该缓存这个文件夹的内容。如果我想回到以前的数据,我应该可以做一个dvc checkout?还是将每个文件单独添加到DVC中更好?

— .dvc
- config
— dataset
- fileone.cvs
- train.py
- requirements.txt

到目前为止,我已经跟踪了单个文件,但是如果我有100个文件,跟踪整个文件夹会更容易吗?

是的,可以一次添加整个目录,这是在DVC中处理目录的推荐方法。有100个.dvc文件是不鼓励的,而不是什么DVC优化。

文档中有一个示例。差不多,你可以这样做:

dvc add dataset

无论dataset目录中有多少文件,DVC都会创建一个单独的dataset.dvc文件来处理整个目录。文件将被缓存(每个唯一的文件每个数据集一次)。

要稍后更新,您可以运行dvc adddvc commit。要回到以前的版本,您将能够使用与这里描述的相同的机制。

这里是一些技术细节的简要总结,如果你想更好地理解其含义,我建议你阅读。

如果目录中有很多文件,也请阅读Large Dataset Optimization.

最新更新