删除"almost similar"字符串的冗余线



我有以下文件:

ab=5
ac=6
ad=5
ba=5
bc=7
bd=4
ca=5
cb=7
cd=3
...
"ab"和">

ba","ac"和"ca","bc"和"cb"是多余的。如何消除 bash 中的这些冗余行?

预期产出:

ab=5
ac=6
ad=5
bc=7
bd=4
cd=3
$ awk '{x=substr($0,1,1); y=substr($0,2,1)} !seen[x>y?x y:y x]++' file
ab=5
ac=6
ad=5
bc=7
bd=4
cd=3

简短awk解决方案:

awk '{ c1=substr($0,1,1); c2=substr($0,2,1) }!a[c1 c2]++ && !((c2 c1) in a)' file
  • c1=substr($0,1,1) - 将提取的第一个字符分配给变量c1
  • c2=substr($0,2,1) - 将提取的第 2 个字符分配给变量c2
  • !a[c1 c2]++ && !((c2 c1) in a) - 基于"相似"2 字符序列之间互斥的关键条件

输出:

ab=5
ac=6
ad=5
bc=7
bd=4
cd=3

这是一个具有perl通用解决方案的解决方案,无论=之前的字符数如何

$ cat ip.txt
ab=5
ac=6
abd=51
ba=5
bad=23
bc=7
bd=4
ca=5
cb=7
cd=3
$ perl -F= -lane 'print if !$seen{join "",sort split//,$F[0]}++' ip.txt
ab=5
ac=6
abd=51
bc=7
bd=4
cd=3
  • awk一样,默认情况下未初始化的变量的计算结果为false
  • -F=使用=作为字段分隔符,结果保存在@F数组中
  • $F[0]将给出第一个字段,即=之前的字符
  • split//,$F[0]将给出带有单个字符的数组
  • 默认情况下sort进行字符串排序
  • 然后,join ""将从排序的字符中形成单个字符串,并以空字符串作为分隔符
  • 有关-lane-F选项的文档,请参阅 https://perldoc.perl.org/perlrun.html#Command-Switches。使用-i进行就地编辑

您能否尝试以下并让我知道这是否对您有帮助,我已经使用 GNU awk 编写并测试了它。

awk -F'=' '{
split($1,array,"")}
!((array[1],array[2]) in a){
  a[array[1],array[2]];
  a[array[2],array[1]];
  print;
  next
}
!((array[2],array[1]) in a){
  a[array[1],array[2]];
  a[array[2],array[1]];
  print;
}
'   Input_file

输出将如下所示。

ab=5
ac=6
ad=5
bc=7
bd=4
cd=3

最新更新