如何在不指定标签和删除垃圾的情况下获取python中标识的URL内容?
我知道通常的方法,从urlopen获取数据,然后从BeautifulSoup获取数据以识别内容的标签。我真正想知道的是,是否有任何通用方法或库可以在不指定标签的情况下执行此操作。
如果要从HTML中提取文本:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
text = soup.get_text()