我正在寻找一种从记事本 文件中删除重复行的方法。行不是确切的重复。这是情况。我也有大量具有概率值的资本化公司名称(每个)。因此格式就是这样:
ATT .7213
SAMSUNG .01294
SAMSUNG .90222
因此,我需要删除以下行之一,因为第一列中有匹配。只要我最终在最后一排,我就没有真正需要删除哪一个的偏爱。我试图使用TextFX使用唯一的排序,但它正在寻找整个行重复,而不仅仅是第一列。如果有人能提供方便的解决方案来解决此问题,我将非常感谢。使用AWK,SED或CUT的BASH脚本答案也可以接受,并且使用正则表达式。
谢谢!
使用awk
,您可以说:
awk '!a[$1]++' filename
这将保留仅对第一个字段具有唯一值的行。
使用 sort
:
sort -k1,1 -u companies.txt
输出将包含完整行,但仅考虑排序键(第一个字段)以识别重复。