一个UTF-16二进制文件的grep和tail-f-尝试使用简单的awk



我如何实现的等效功能

tail -f file.txt | grep 'regexp'

仅输出与文件类型中的正则表达式(如'Result')匹配的缓冲行

$ file file.txt
file.txt:Little-endian UTF-16 Unicode text, with CRLF line terminators

以下tail -f流内容转换为utf-8:的示例

Package end.
Total warnings: 40
Total errors: 0
Elapsed time: 24.4267192 secs.
...Package Executed.
Result: Success

由于管道连接到grep的问题,我选择了awk作为一种即时解决方案,它可以去除有问题的字符,还可以从regex中生成匹配的行。

awk似乎给出了最有希望的结果,然而,我发现它返回的是整个流,而不是单个匹配行:

tail -f file.txt | awk '{sub("/[^x20-x7F]/", "");/Result/;print}'
Package end.
Total warnings: 40
Total errors: 0
Elapsed time: 24.4267192 secs.
...Package Executed.
Result: Success

我尝试过的

  • 将物流和管道转换为grep

    tail -f file.txt | iconv -t UTF-8 | grep 'regexp'
    
  • 使用luit根据此后更改终端编码

    luit -encoding UTF-8 -- tail -f file.txt | grep 'regexp'
    
  • 删除此处描述的非ASCII字符,然后管道传输到grep

    tail -f file.txt | tr -d '[^x20-x7F]' | grep 'regexp'
    tail -f file.txt | sed 's/[^x00-x7F]//' | grep 'regexp'
    
  • 使用grep标志--line-buffered-a以及sed -u 的上述各种组合

  • 使用上述预挂的luit -encoding UTF-8 --
  • 使用包含grep -f的正则表达式的具有相同编码的文件

他们为什么失败

  • 大多数尝试,只是没有任何内容打印到屏幕上,因为grep搜索'regexp',而实际上文本类似于'x00rx00ex00gx00ex00xx00p'——例如,'R'将返回行'Result: Success',但'Result'不会
  • 如果一个完整的正则表达式得到匹配,例如在使用grep -f的情况下,它将返回整个流,而不仅仅是返回匹配的行
  • 通过sedtriconv的管道似乎断开了通往grep的管道,而grep似乎仍然只能匹配单个字符

编辑

我使用xxd查看了utf-16格式的原始文件,目的是使用regex来匹配编码,它给出了以下输出:

$ tail file.txt | xxd
00000000: 0050 0061 0063 006b 0061 0067 0065 0020  .P.a.c.k.a.g.e.
00000010: 0065 006e 0064 002e 000d 000a 000d 000a  .e.n.d..........
00000020: 0054 006f 0074 0061 006c 0020 0077 0061  .T.o.t.a.l. .w.a
00000030: 0072 006e 0069 006e 0067 0073 003a 0020  .r.n.i.n.g.s.:.
00000040: 0034 0030 000d 000a 0054 006f 0074 0061  .4.0.....T.o.t.a
00000050: 006c 0020 0065 0072 0072 006f 0072 0073  .l. .e.r.r.o.r.s
00000060: 003a 0020 0030 000d 000a 0045 006c 0061  .:. .0.....E.l.a
00000070: 0070 0073 0065 0064 0020 0074 0069 006d  .p.s.e.d. .t.i.m
00000080: 0065 003a 0020 0032 0034 002e 0034 0032  .e.:. .2.4...4.2
00000090: 0036 0037 0031 0039 0032 0020 0073 0065  .6.7.1.9.2. .s.e
000000a0: 0063 0073 002e 000d 000a 002e 002e 002e  .c.s............
000000b0: 0050 0061 0063 006b 0061 0067 0065 0020  .P.a.c.k.a.g.e.
000000c0: 0045 0078 0065 0063 0075 0074 0065 0064  .E.x.e.c.u.t.e.d
000000d0: 002e 000d 000a 000d 000a 0052 0065 0073  ...........R.e.s
000000e0: 0075 006c 0074 003a 0020 0053 0075 0063  .u.l.t.:. .S.u.c
000000f0: 0063 0065 0073 0073 000d 000a 000d 000a  .c.e.s.s........
00000100: 00

Cygwin上最草率的解决方案是修复awk语句:

tail -f file.txt | 
    LC_CTYPE=C awk '{ gsub("[^[:print:]]", ""); if($0 ~ /Result/) print; }'

这有一些相互抵消的错误,比如tail在尴尬的地方剪切了一个UTF-16LE文件,但awk剥离了我们希望是垃圾的东西。

一个稳健的解决方案可能是:

tail -c +1 -f file.txt | 
    script -qc 'iconv -f UTF-16LE -t UTF-8' /dev/null | grep Result

但它读取了整个文件,我不知道Cygwin使用script说服iconv不要缓冲(它在GNU/Linux上可以工作)的效果如何。

我意识到一个简单的正则表达式可以忽略搜索字符串中字母之间的任何字符。。。

这与'Result'匹配,同时允许每个字母之间有任意一个字符。。。

$ tail -f file.txt | grep -a 'R.e.s.u.l.t'
Result: Success
$ tail -f file.txt | awk '/R.e.s.u.l.t./'
Result: Success

或者按照这个答案:为了避免键入所有乏味的点。。。

search="Result"
tail -f file.txt | grep -a -e "$(echo "$search" | sed 's/./&./g')"

您可以使用ripgrep,它将很好地处理UTF-16,而无需转换您的输入

tail -f file.txt | rg regexp

最新更新