小贝子编程

XPath:提取html页面中的所有标记

本文关键字：提取 html XPath python html xpath
更新时间 : 2023-09-21
英文 : XPath: extract all tags in html page

我是XPath新手，遇到了一个问题。我想提取网页上的所有和唯一的html标签。

示例：

<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>

我的输出应该是：

["<html>", "<body>","<h1>","</h1>","<p>","</p>","</body>"."</html>"]

尝试使用带有re.findall函数的regex：

>>> import re
>>> s = '''<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>'''
>>> re.findall('<.*?>', s)
['<html>', '<body>', '<h1>', '</h1>', '<p>', '</p>', '</body>', '</html>']
>>>

最新更新

使用.Split拆分字符串并返回第一个整数值
Docker挂载的卷文件属于nobody:nobody(失去所有者)
气流操作器从URL下载文件并保存到磁盘
我试图在提交表单之前添加一个选中的属性，并使用laravel刀片模板单击无线电粘性
Love2D 错误：main.lua：38：尝试调用方法 'getHeight'(一个 nil 值)
使用稀疏矩阵与jax
对于大一点的孩子(9岁以上的孩子)，我需要什么样的iOS家长门?
Understanding std::vector::push_back(std::move(v[i]))
你能找到解决这个问题的方法吗?
在使用相同group_id的kafka消费者中使用assign而不是subscribe是否有影响? &
让谷歌的见解清楚地表明，我的网站上有不止一个页面
我无法在反应中删除 html 标签
获取/读取邮件消息并输出纯文本
显示:表格单元格与行号不对齐
如何使用Toga应用访问Android通知
访问create_template_view api时出现INVALID_REQUEST_BODY错误
使用预处理器条件生成C/ c++变量名
此处映射计算路线API上的错误414
Oracle数据库中的并行提示
woocommerce在每个类别结帐后自定义重定向
是否有可能在AWS中设置一个webhook来监控特定的电子邮件地址，并将接收到的电子邮件信息传递给Lambda?<
仅使用numpy实现CNN时出错
过程展开不规则时间序列
插入多个带别名的外键
如何从API响应中提取Array
WebLogic 14c -性能调优测试
Google-Drive-API文件没有使用FORM_ID找到
尝试创建一个伸缩盒容器，但它不会创建盒子并显示文本
是否有一种方法(最好是R)从BirdLife数据区自动提取信息?
为什么process.env.JWT_EXPIRE未被发现?js筑巢

XPath:提取html页面中的所有标记

相关内容

最新更新

热门标签：