我想抓取一个网页,但我根本不想使用regex。我正在用美容护肤品来处理刮痧。我有这个来源:
<TD WIDTH="50%" VALIGN="TOP"><span class="sections">Date:</span>
13 August 2014
<br> <br><span class="sections">Application Deadline:</span>
<font color="maroon">
28 August 2014</font>
<font color="#990066">Application closed / under review</font>
<br> <br><span class="sections">Duty Station: </span>
Multiple duty stations
<br>
从这个来源,我想刮2014年8月13日。
我可以找到span元素,通过它的类搜索:soup.findAll('span',{'class':'sections'}
获取第一个元素,并检查文本是否为"Date:",但这只是给了我元素。我试图获取的文本就在它下面,我唯一能做的就是通过td
进行搜索,但这不是我想要的,因为一个td
中有很多元素和文本。
我知道我可以用regex来完成,但我真的想用beautifulsoup来完成。
提前感谢
找到了。
一旦我得到元素<span class="sections">Date:</span>
我必须做element.nextSibling
比我想象的要容易。