在美丽汤.查找找不到文本



我必须从论坛上下载所有帖子:http://forum.ubuntu.cz/我在python 2.7

中写代码

i迭代for周期所有帖子在表中(表代表<form name = "quickModForm" >),每个帖子都在<div class = "windowbg">class = "windowbg2"中。每个帖子都包括<div class = "poster"><div class = "postarea">。我从"海报"中提取作者名称,从" Postarea"中提取发布时间和帖子内容。

当我在此页面上运行代码时

这是我的代码的一部分:

posts = urllib2.urlopen(link)
posts_soup = BeautifulSoup(posts.read()) 
form = prispevky_soup.find("form", {"name": "quickModForm"})
for divs in form.find_all("div", { "class": [ "windowbg", "windowbg2"]}):
    div = divs.find("div", {"class": "post_wrapper"})
    div_body = div.find("div", {"class": "postarea"})
    div_header = div.find("div", {"class": "poster"})

我发现在div_header中始终是我需要的所有信息,在div_body中的某些帖子中,我找不到为什么首先迭代成功,仅次于部分迭代,因为 div_header = divs.find("div", {"class": "poster"})功能正常和
div_body = divs.find("div", {"class": "postarea"})有时不。帖子的源代码非常相似。

感谢您的帮助,对不起我的英语。

使用get_text()方法在HTML标签之间获取文本,如以下内容:

div = divs.find("div", {"class": "post_wrapper"}).get_text()
div_body = div.find("div", {"class": "postarea"}).get_text()
div_header = div.find("div", {"class": "poster"}).get_text()

最新更新