我是XPath新手,遇到了一个问题。我想提取网页上的所有和唯一的html标签。
示例:
<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>
我的输出应该是:
["<html>", "<body>","<h1>","</h1>","<p>","</p>","</body>"."</html>"]
尝试使用带有re.findall
函数的regex:
>>> import re
>>> s = '''<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>'''
>>> re.findall('<.*?>', s)
['<html>', '<body>', '<h1>', '</h1>', '<p>', '</p>', '</body>', '</html>']
>>>