我在铬版本99.0.4844.82:中使用这些选项
chrome_options = Options()
chrome_options.page_load_strategy = 'eager'
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-extensions')
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome('test_shit/chromedriver', chrome_options=chrome_options)
我尝试了所有参数的page_load_strategy
,none
完全破坏了我的脚本
我的代码中的问题在这部分
try:
driver.set_page_load_timeout(30)
driver.get(url)
except:
print('DOESNT WORK')
continue
print('loaded url')
title = driver.title.replace(',,', '"').replace('„', '"')
print('got the title')
text = driver.find_element_by_xpath("/html/body").text
print('got the text')
它只是在driver.get(url)
之后卡住,print('loaded url')
永远不会通过。直到我尝试抓取印地语网站,特别是以下网站,我才遇到这个问题:
https://www.abplive.com/states/delhi-ncr/delhi-transport-department-to-redesign-ten-dangerous-streches-with-the-help-of-iit-delhi-soon-2052577
https://hindi.oneindia.com/topic/%E0%A4%B8%E0%A4%A1%E0%A4%BC%E0%A4%95-%E0%A4%A6%E0%A5%81%E0%A4%n0%E0%A5%8D%E0%A4%98%E0%A4%9F%E0%o4%A8%E0%A4
https://www.tv9hindi.com/india/40-percent-fatal-accidents-due-to-rear-end-collisions-findings-of-audit-report-by-ministry-of-road-and-transport-935425.html
https://hindi.news18.com/tag/road-accident/
这很奇怪,因为有时它能工作,但大多数时候它都会被卡住。
需要明确的是:文本加载,它就在那里,即使是最喜欢的图标加载,脚本也会卡住。
我已经试着解决这个问题好几个小时了,如果有人知道如何阻止它,我将非常感激。
所以,我终于解决了它。问题是我的代码末尾有一个time.wait(1)
,我只是从那里删除了它,并将time.wait(3)
放在driver.get(url)
之前。