我得到了一个非常大的文件,其中包含n行文本(n为<1000),然后是空行,然后是许多未类型化的二进制数据。
我想提取文本的前n行,然后以某种方式提取二进制数据的精确偏移量。
提取第一行很简单,但我如何获得偏移量?Bash不支持编码,所以仅仅计算字符数是没有意义的。
grep有一个选项-b
来输出字节偏移。
的例子:
$ hexdump -C foo
00000000 66 6f 6f 0a 0a 62 61 72 0a |foo..bar.|
00000009
$ grep -b "^$" foo
4:
$ hexdump -s 5 -C foo
00000005 62 61 72 0a |bar.|
00000009
在最后一步中,我使用5而不是4来跳过换行符。
也适用于文件中的变音符(äöü)。
使用grep
查找空行
grep -n "^$" your_file | tr -d ':'
如果您想要最后一个空行(也就是说,如果文件的顶部可以在二进制内容开始之前包含空行),可以选择使用tail -n 1
。
使用head
获取文件的顶部
head -n $num
您可能希望使用像hexdump或od这样的工具来检索二进制偏移量,而不是bash。这里有一个参考
Perl可以告诉您您在文件中的位置:
pos=$( perl -le '
open $fh, "<", $ARGV[0];
$/ = ""; # read the file in "paragraphs"
$first_paragraph = <$fh>;
print tell($fh)
' filename )
顺便说一句,我试图用一行字写这个
pos=$( perl -00 -lne 'if ($. == 2) {print tell(___what?___); exit}' filename
什么是"当前文件句柄"变量?我在文档里找不到