XPath:提取html页面中的所有标记



我是XPath新手,遇到了一个问题。我想提取网页上的所有和唯一的html标签。

示例:

<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>

我的输出应该是:

["<html>", "<body>","<h1>","</h1>","<p>","</p>","</body>"."</html>"]

尝试使用带有re.findall函数的regex:

>>> import re
>>> s = '''<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>'''
>>> re.findall('<.*?>', s)
['<html>', '<body>', '<h1>', '</h1>', '<p>', '</p>', '</body>', '</html>']
>>> 

最新更新