从文件集中重建版本控制



我正在照顾以下任务的方法:

给出了一组高度相似的文件(我在此处使用模糊哈希),我想知道是否有一种算法可以将这些文件标记为具有版本号的算法。输出应返回生成这些文件时的顺序顺序。

原因是我必须重新组织一个不熟悉版本控制的团队的数据。

谢谢

一种相当简单的方法(我希望)是尝试将其转换为某种图形问题。

假设每个文件都是一个节点,每两个文件之间都有边缘。
例如,两个节点之间的边缘的重量将是文件之间的不同行的数量(或某些其他功能)。

您接下来要做的就是找到一条以最低成本遍历所有文件的非循环路径。这样的东西,如果您知道第一个文件和最后一个文件。
您可以添加一个空文件和最新版本,作为您的 start end nodes。

我猜这不会给您确切的结果,但是它可能会给您一个很好的起点。
希望这很有帮助。

最新更新