<img> 在网页抓取时过滤掉标签的最佳方法?



我使用 beautifulsoup 进行一些网络抓取,并想知道从我抓取的任何表条目中过滤掉 img 标签的最佳方法,以便过滤此代码片段中的 td.text 属性的结果将仅返回有用的文本

<tr>
<td>
usefultext
<img src='imgsrc' alt='*'>
</td>
</tr>

您可以创建汤,useful_text创建汤后,正如文档将解释的那样,您可以通过选择tags来上下树,在这种情况下,我选择了td标签,如果它有多个字符串,我将使用get_text()函数。

from bs4 import BeautifulSoup, SoupStrainer
html = '''<tr>
<td>
usefultext
<img src='imgsrc' alt='*'>
</td>
</tr>'''
useful_text = BeautifulSoup(html)
useful_text.td.get_text()
[out]:
'n    usefultextn    n'

如果您有多个td标签,则需要使用next_siblings函数。

我强烈建议阅读文档并四处玩耍。

最新更新