数据版本控制(DVC)在位编辑文件会导致循环依赖关系



我们有一个更大的数据集,并且有几个预处理脚本。这些脚本就地更改数据。当我尝试用dvc run注册它时,它似乎抱怨循环依赖性(输入和输出相同(。我认为这是一个非常常见的用例。

这里的最佳做法是什么?

我试着四处搜索,但我没有看到任何解决方案(除了为输出创建另一个文件夹(。

通常,我们将输入和输出拆分为单独的文件,而不是修改所有内容,这不仅是为了分离关注点原则,也是为了使其适合DVC等工具。

希望你可以试试这种方法。