我想在 55 行"显示"行之后拆分一个文本文件(1000-2000 行)。要计算显示的实际行数,
grep -n "^L 7p 39 C|^N 2" airportdata.txt | cut -f1 -d: >> matches_all.txt
按预期工作。
现在我有显示行的总数,包括"显示的内容"所在的行号。
我的问题:我只允许将文件拆分到N 2
前面(请参阅示例内容)以保留文件结构。我不知道如何实现这一目标。我的尝试是查看匹配编号 56 是否N 2
。然后拆分很容易:
head -55 airportdata.txt > apd_1.txt
tail -n +55 airportdata.txt > apd_2.txt
在保持文件结构完整的同时做到这一点。
如果我匹配其他行之一,我必须在文件中"向上走"并找到一个行数较低的行,其中有N 2
并将文件拆分在那里。这正是我迄今为止没有成功的部分。
非常欢迎任何想法。
万事如意,
克里斯
文件结构:N n
定义列数。以下行将分布到这些列中,直到新N n
发生变化。
N 2
表示两列,因此接下来的两行构成一条"显示线"。
N 9
表示九列,后面的每九行构成一条"显示线"。
airportdata.txt
样本内容:
N 2
L 7p 40 L @:6.5p:CYLW@::
L 7p 39 R 1410ft / nil
N 9
L 7p 39 L 1
L 7p 39 L 16
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 2500*x61
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 34
L 7p 39 R -
N 2
L 7p 40 L @:6.5p:CYMJ@::
L 7p 39 R 1890ft / nil
N 9
L 7p 39 L 1
L 7p 39 L 11L
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 2500 x46
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 29R
L 7p 39 R 1
L 7p 39 L G
L 7p 39 L 11R
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 2200 x46
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 29L
L 7p 39 R G
N 2
L 7p 40 L @:6.5p:CYVR@::
L 7p 39 R 10ft / n.a
N 9
L 7p 39 L 3
L 7p 39 L 08L
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 3000 x61
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 26R
L 7p 39 R 3
L 7p 39 L 3
L 7p 39 L 08R
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 3500*x61
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 26L
L 7p 39 R 1
L 7p 39 L 1
L 7p 39 L 12
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 2200 x61
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 30
L 7p 39 R G
N 2
L 7p 40 L @:6.5p:CYWG@::
L 7p 39 R 780ft / 8
N 9
L 7p 39 L 2
L 7p 39 L 36
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 3300 x61
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 18
L 7p 39 R V
L 7p 39 L 1
L 7p 39 L 13
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 2600 x61
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 31
L 7p 39 R 1
根据样本内容进行调整,可能的结果是:
条件:显示 4 行后拆分
apd_1.txt
:
N 2
L 7p 40 L @:6.5p:CYLW@::
L 7p 39 R 1410ft / nil
N 9
L 7p 39 L 1
L 7p 39 L 16
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 2500*x61
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 34
L 7p 39 R -
apd_2.txt
:
N 2
L 7p 40 L @:6.5p:CYMJ@::
L 7p 39 R 1890ft / nil
N 9
L 7p 39 L 1
L 7p 39 L 11L
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 2500 x46
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 29R
L 7p 39 R 1
L 7p 39 L G
L 7p 39 L 11R
L 7p 39 L 40
L 7p 39 L 40
L 7p 39 C 2200 x46
L 7p 39 R 40
L 7p 39 R 40
L 7p 39 R 29L
L 7p 39 R G
[and all the rest]
第五条匹配线不N 2
,因此必须在前一行前面进行切割N 2
不确定我是否了解您的所有条件,但我认为最简单的方法是使用循环,例如
#!/bin/bash
apd=0
while read line; do
[[ $line == "N 2"* ]] && apd=$(($apd+1))
echo "$line" >> "add_${apd}.txt"
done < "airportdata.txt"
在您的示例aiportdata.txt
上将输出 4 个文件add_1.txt add_2.txt add_3.txt add_4.txt
每个文件都以N 2
开头
如果我理解正确,那么您正在寻找这样的东西:
awk -v n=55 -v f1=apd_1.txt -v f2=apd_2.txt '
/^N/ {++c}
c <= n { print > f1 }
c > n { print > f2 }
' < airportdata.txt
那是:
- 将一些变量传递给
awk
:n
= 拆分、f1
和f2
两个输出文件的"阈值"数字 - 如果一行以
N
开头,则递增计数 - 如果计数小于或等于阈值,则打印到第一个文件
- 如果计数大于阈值,请打印到第二个文件