如何匹配使用正则表达式将多行文本与特定的开始和结束模式匹配



在 Python 正则表达式的帮助下,我正在尝试提取 [..] 之后的所有行并以 ;; 字符。请参阅下面的示例

sample_str = '''[TITLE]
[OPTIONS]
;;Options            Value
;;------------------ ------------
FLOW_UNITS           CFS
<MORE TEXT>
[PATTERNS]
;;Name           Type       Multipliers
;;-------------- ---------- -----------
;Daily pattern generated from time series '2-166:2-165 (obs)'.  Average value was 0.0485 MGD.
2-166:2-165_(obs)_Daily DAILY      1.011 1.008 1.06  0.908 1.072 0.998 0.942
<MORE TEXT>
[COORDINATES]
;;Node           X-Coord          Y-Coord         
;;-------------- ---------------- ----------------
<MORE TEXT>
[JUNCTIONS]
;;               Invert     Max.       Init.      Surcharge  Ponded    
;;Name           Elev.      Depth      Depth      Depth      Area      
;;-------------- ---------- ---------- ---------- ---------- ----------
1-1              837.85     15.25      0          0          0         
<MORE TEXT>  
[REPORT]
INPUT      YES
CONTROLS   NO
<MORE TEXT>
'''

我想得到一个这样的列表

expected_result = [';;Options            Valuen;;------------------ ------------', ';;Name           Type       Multipliersn;;-------------- ---------- -----------', ..]

我只能在re.findall(r"(?<=]n);;.*", sample_str)之前获得第一行.尝试通过添加re.findall(r"(?<=]n);;.*n;;.*", sample_str, re.MULTILINE)这样的n来添加更多行模式是行不通的,因为我想要的文本模式不统一。我尝试使用re.multiline搜索所有文本,直到-n,但我无法让它像re.findall(r"(?<=]n);;.*-$", sample_str, re.MULTILINE)一样工作。

有人可以帮我吗!

你可以使用这样的东西:

re.findall(r"^[.*]n+((?:;;.*n+)+)", sample_str, re.M)

这是表达式的解释


编辑:添加了模式从行首开始的约束。感谢您注意到斯特里比泽夫@Wiktor

就其价值而言,这很容易在没有正则表达式的情况下实现:

input_str = '''...'''
flag = False
output = []
for line in input_str.splitlines():
if not flag and line.startswith('[') and line.endswith(']'):
flag = True
elif flag and line.startswith(';;'):
output.append(line)
else:
flag = False
print(output)

请注意,行尾会丢失,因为.splitlines()吃掉了它们。


如果输入来自文件,则同样简单明了:

def parse_file(filename):
flag = False
with open(filename, 'r', encoding='utf8') as f:
for line in f:
if not flag and line.startswith('[') and line.endswith(']'):
flag = True
elif flag and line.startswith(';;'):
yield line
else:
flag = False

最新更新