网页抓取 - 从棒球参考 Python 中获取文本数据



http://www.baseball-reference.com/players/split.cgi?id=aardsda01&year=2015&t=p

我想得到这个投手投球的手臂的数据。如果它是一个表格,我将能够获取数据,但我不知道如何获取文本。

David Aardsma    ARDS-mah
David Allan Aardsma (twitter: @TheDA53)
Position: Pitcher
Bats: Right, Throws: Right 
Height: 6' 3", Weight: 220 lb.

文本如下所示。我想在Throws:之后得到一切.

如果要用 BeautifulSoup 解决它,您将通过文本Throws:找到 b 标签,并获得以下同级:

>>> from urllib2 import urlopen
>>> from bs4 import BeautifulSoup
>>>
>>> url = "http://www.baseball-reference.com/players/split.cgi?id=aardsda01&year=2015&t=p"
>>> soup = BeautifulSoup(urlopen(url))
>>> soup.find("b", text='Throws:').next_sibling.strip()
u'Right'

最新更新