我要做的是在.html文件中匹配特定结果的非常标准的任务。为此,我正在使用Python并编写此代码:
...
import re, requests
res = requests.get('http://www.website.com/page.html')
t = res.text
g = re.search("(regex)", t)
...
这很好。但是,我的实际任务是获取字符串,遵循我的正则表达式找到的字符串。它是.html文档的以下行中始终。这是从头到尾的整行,这可能会使它变得容易一些。非常不幸的是,我无法直接使用正则直接找到正确的数据。
实现这一目标的最有效方法是什么?
一个简单的解决方案将是在线路上迭代。
当行匹配时,返回下一个:
import re
text = """abc
def
ghi
klm
"""
pattern = re.compile('def')
def find_following_line(text):
lines = text.splitlines()
for i, line in enumerate(lines):
if re.search(pattern, line):
return lines[i+1]
print(find_following_line(text))
# ghi