修改和比较两个文件的相似度

我有两个文件。file1的样例值如下:

file2的样例值如下:

我试图修改file1并创建一个file3与以下值(如您所见，file1的最后一列中的值是不相关的):

同样，file2需要修改，并且要用以下值创建file4 (file2最后一列中的值无关):

在创建file3和 fil4 之后，我打算使用diff实用程序检查它们的相似性。为了生成file3和 fil4 ，我正在尝试编写awk脚本。但是作为awk的初学者，我发现这个任务非常耗时。如有任何指导，我将不胜感激。

我们可以从第一行的$1中获取值，然后在公式中使用它来计算偏移量。这里假设最小的$1位于第一行。

awk 'NR==1 { i=$1 } { print $1-i+1,$2 }'

例如，你可以这样写:

awk 'NR==1 { i=$1 } { print $1-i+1,$2 }' file1 > file3
awk 'NR==1 { i=$1 } { print $1-i+1,$2 }' file2 > file4
diff file3 file4

这是我之前的版本，直到我发现你真的在找一个补偿。我以为你只是想根据$1的变化来改变它。我们可以设置一个变量来检查行与行之间的值变化，并且只在$1变化时增加计数器。这假定它们是分组的。

awk 'n!=$1 { i++ } { print i,$2 } { n=$1 }'

例如，你可以这样写:

awk 'n!=$1 { i++ } { print i,$2 } { n=$1 }' file1 > file3
awk 'n!=$1 { i++ } { print i,$2 } { n=$1 }' file2 > file4
diff file3 file4

相关内容