我有一个应用程序,需要从网页中提取html代码使用python与硒。呼叫浏览器。对于包含大约1MB html代码的页面,page_source大约需要0.10s。我想用最有效的方式来做这件事。我一直在使用selenium,因为整个应用程序都是围绕它构建的,而且页面还包含一些动态更新的数据。我尝试过在Firefox和Chrome中使用硒。在标准设置下运行时,Firefox似乎比Chrome稍快一些(大约每秒几百次)。我想知道是否有人有经验玩浏览器设置在硒来优化它需要获得页面源的时间?
你可以考虑两种选择,
-
Selenium headless mode.
options = webdriver.ChromeOptions() options.add_argument("--headless") driver = webdriver.Chrome(options = options)
-
尝试注入BS4(靓汤)提取信息。
Beautiful Soup是一个Python库,用于从HTML和XML文件。它与您最喜欢的解析器一起工作以提供习惯用法导航、搜索和修改解析树的方法。它通常为程序员节省数小时或数天的工作。
阅读更多关于这里
使用BS4:
html_content = driver.page_source
soup = BeautifulSoup(html_content)