我使用 beautifulsoup 进行一些网络抓取,并想知道从我抓取的任何表条目中过滤掉 img 标签的最佳方法,以便过滤此代码片段中的 td.text 属性的结果将仅返回有用的文本
<tr>
<td>
usefultext
<img src='imgsrc' alt='*'>
</td>
</tr>
您可以创建汤,useful_text
创建汤后,正如文档将解释的那样,您可以通过选择tags
来上下树,在这种情况下,我选择了td
标签,如果它有多个字符串,我将使用get_text()
函数。
from bs4 import BeautifulSoup, SoupStrainer
html = '''<tr>
<td>
usefultext
<img src='imgsrc' alt='*'>
</td>
</tr>'''
useful_text = BeautifulSoup(html)
useful_text.td.get_text()
[out]:
'n usefultextn n'
如果您有多个td
标签,则需要使用next_siblings
函数。
我强烈建议阅读文档并四处玩耍。