Python-获取公式的正则表达式问题包含在><



我正在html文件上练习正则表达式。我的目标是获取文件的标题:

<tittle>Popular baby names</tittle>

我试过这样的东西:

pattern = re.compile(r'>.+<')

而不是我想要的:

((1791, 1794), '>?<')
((2544, 2547), '>1<')
((2605, 2608), '>2<')

我读过那个点代表除换行符以外的任何字符。这让我想知道为什么它不起作用。

如果只想捕获标记内部的内容,请使用捕获组()

import re
s = '<tittle>Popular baby names</tittle> some text <title>Other title</title> <strong>bold</strong>'
re.findall(r'>([ws]+)</', s)
# ['Popular baby names', 'Other title', 'bold']