如何添加/更新数据与dvc工作流?

我想知道，当我们设置DVC时，我可以简单地添加我的整个目录，dvc add dataset和我的工作流程将是为下一次迭代更新整个数据集文件夹。应该缓存这个文件夹的内容。如果我想回到以前的数据，我应该可以做一个dvc checkout?还是将每个文件单独添加到DVC中更好?

— .dvc
- config
— dataset
- fileone.cvs
- train.py
- requirements.txt

到目前为止，我已经跟踪了单个文件，但是如果我有100个文件，跟踪整个文件夹会更容易吗?

是的，可以一次添加整个目录，这是在DVC中处理目录的推荐方法。有100个.dvc文件是不鼓励的，而不是什么DVC优化。

文档中有一个示例。差不多，你可以这样做:

dvc add dataset

无论dataset目录中有多少文件，DVC都会创建一个单独的dataset.dvc文件来处理整个目录。文件将被缓存(每个唯一的文件每个数据集一次)。

要稍后更新，您可以运行dvc add或dvc commit。要回到以前的版本，您将能够使用与这里描述的相同的机制。

这里是一些技术细节的简要总结，如果你想更好地理解其含义，我建议你阅读。

如果目录中有很多文件，也请阅读Large Dataset Optimization.

相关内容