因此,我目前正在抓取几个网页中的文本,这些文本将被放置在列表中,然后我可以通过Pandas在数据帧中组织这些列表。我目前正在使用requests
和bs4
模块。我需要抓取的文本之一是这样的形式:
<li><span class="label-description">STATUS</span><span class="text-description"></span>Ongoing</li>
我需要提取"正在进行",但它没有CSS选择器,我可以使用soup.select(selector)
。我能做什么?
您可以从<li>
标签的.contents
中选择最后一个元素:
print(soup.find("li").contents[-1])
打印:
Ongoing
或class="text-description"
:中的下一个文本元素
print(soup.find(class_="text-description").find_next(text=True))
直接按类选择怎么样?
soup.select(".text-description")