相同的CSS，浏览器和bs4.select()方法中的结果不同

我正在尝试从以下网页检索一些信息：https://web.archive.org/web/19990421025223/http://www.rbc.ru

我构建了一个选择器，在Chrome的检查模式下突出显示所需的表格：

selector = 'body > table:nth-of-type(2) > tbody:nth-of-type(1)>tr:nth-of-type(1)>td:nth-of-type(5)>table:nth-of-type(1)>tbody:nth-of-type(1)'

但是，当使用bs4.select((方法运行脚本时：

import requests
from bs4 import BeautifulSoup
import lxml
url = 'https://web.archive.org/web/19990421025223/http://www.rbc.ru'
headers = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.content, 'lxml')
selector = 'body > table:nth-of-type(2) > tbody:nth-of-type(1)>tr:nth-of-type(1)>td:nth-of-type(5)>table:nth-of-type(1)>tbody:nth-of-type(1)'
print(soup.select(selector=selector))

输出是：[]-这与预期的非常不同，因为它由浏览器中的html代码组成。

我在这里错过了什么？

您不能指望浏览器生成的选择器在BeautifulSoup中可靠地工作，因为当在浏览器中呈现页面时，标记会发生变化，而当您在Python代码中下载页面时，没有呈现，您只会得到非常初始的未呈现HTML页面。

在这里，您必须使用自己的CSS选择器或其他方法来定位table元素。

由于页面的标记对HTML解析不是很友好，我会通过它的一个列名来定位table元素：

table = soup.find("b", text="спрос").find_parent("table")

注意，只有当我用一个宽松的html5lib解析器解析页面时，它才对我有效：

soup = BeautifulSoup(response.content, "html5lib")

由于在运行时javascript可以以不同于源代码的方式呈现整个页面，因此bs4不适合动态变化的网站。

我建议使用Selenium，因为它实际上可以打开网站，并且允许您在呈现某些元素之前暂停搜索。如果你不想看到浏览器弹出，还有其他无头浏览器库可以无声地模拟浏览器环境。

您的代码中有两个问题，首先，在BeautifulSoup中，如果您想使用CSS选择器，符号+ > ~需要用space分隔，如果您想要修补bs4，请参阅此处。

其次，正如我之前对您问题的回答一样，页面源中没有tbody，它是由浏览器生成的。

这里固定CSS选择器

selector = 'body > table:nth-of-type(2) > tr:nth-of-type(1) > td:nth-of-type(5) > table:nth-of-type(1)'

相关内容

最新更新

热门标签：