美丽汤:如何抓取标签中的内容<a><h1>?



我一直在尝试从twitter配置文件中提取名称,唯一的问题是beautifulsoup占用了整个元素。我已经尝试过{"class":}来指定元素,但每当我这样做时,都会导致

AttributeError:"NoneType"对象没有属性"text"错误。

我的代码:

url = "https://twitter.com/barackobama"
html_doc = urllib.request.urlopen(url)
soup = BeautifulSoup(html_doc, 'lxml')
name = soup.find('h1').text
print(name)

如果您想从标题的子链接获取文本,而不是完整的标题文本,请尝试

url = "https://twitter.com/barackobama"
html_doc = urllib.request.urlopen(url)
soup = BeautifulSoup(html_doc, 'lxml')
name = soup.find('h1').a.text
print(name)
# 'Barack Obama'

最新更新