re.findall and regex

我需要获取类似以下内容的名称：

<p>
<a name="blu" title="blu"></a>orense
</p>
<p>
<a name="bla" title="bla"></a>toledo
</p>
<p>
<a name="blo" title="blo"></a>sevilla
</p>

但是有了这个代码：

names = []
matches = re.findall(r'''<astitle="(?P<title>[^">]+)"sname="(?P<name>[^">]+)"></a>''',content, re.VERBOSE)
for (title, name) in matches:
    if title == name:
        names.append(title)
return names

。我得到名字=[ ];怎么了？。谢谢。

呃，

很明显，在您的示例文本中，name出现在title之前，而在您的正则表达式中，title应该在name之前。这正是您应该使用 HTML 解析器的原因（或其中之一）。例如，尝试美丽汤。

如果你坚持使用正则表达式，只需转动参数（并确保你永远不会以不同的顺序获得这些属性，并且永远不会获得除这些属性之外的任何其他属性）：

names = []
matches = re.findall(r'''<asname="(?P<name>[^">]+)"stitle="(?P<title>[^">]+)"></a>''',content, re.VERBOSE)
for (name, title) in matches:
    if title == name:
        names.append(title)

结果：

>>> names
['blu', 'bla', 'blo']

相关内容

最新更新

热门标签：