小贝子编程

<img> 在网页抓取时过滤掉标签的最佳方法？

本文关键字：标签最佳方法过滤抓取 img 网页 python html beautifulsoup
更新时间 : 2023-09-16
英文 : best way to filter out <img> tags when webscraping?

我使用 beautifulsoup 进行一些网络抓取，并想知道从我抓取的任何表条目中过滤掉 img 标签的最佳方法，以便过滤此代码片段中的 td.text 属性的结果将仅返回有用的文本

<tr>
<td>
usefultext
<img src='imgsrc' alt='*'>
</td>
</tr>

您可以创建汤，useful_text创建汤后，正如文档将解释的那样，您可以通过选择tags来上下树，在这种情况下，我选择了td标签，如果它有多个字符串，我将使用get_text()函数。

from bs4 import BeautifulSoup, SoupStrainer
html = '''<tr>
<td>
usefultext
<img src='imgsrc' alt='*'>
</td>
</tr>'''
useful_text = BeautifulSoup(html)
useful_text.td.get_text()

[out]:
'n    usefultextn    n'

如果您有多个td标签，则需要使用next_siblings函数。

我强烈建议阅读文档并四处玩耍。

<img> 在网页抓取时过滤掉标签的最佳方法？

相关内容

最新更新

热门标签：