如何让selenium打开一个浏览器并继续使用该浏览器，而不是为每个url/scrape javascript加载一个新

我有以下代码，我正在尝试抓取一个xls文件，我必须尽我所能使用selenium。

网站使用以下代码获取文件：

function GetQuote() {
$('#lblError').html('');
$('#lblError2').html('');
if ($('#txtTicker') != null && $('#txtTicker').val() != null && $('#txtTicker').val().trim() != ''){
trackGAEventGbl('quote-table-download', $('#txtTicker').val(), 'download');         
var frm = document.forms[0];
if (window.location.href.indexOf('?') > -1) {
frm.action = window.location.pathname;
}           
frm.submit();
return true;
}
else {
alert('Please enter a Stock or Index Symbol.');
return false;
}
}

如果不使用硒，我就没有运气刮到这个。然而，我发现代码需要很长时间才能完成，因为我关注的公司相当多。但每次我使用下面的代码刮取selenium时，它都会打开和关闭一个新的chrome实例。有没有办法加快速度？

def get_file(ticker, url):
chrome_driver_path=r"D:Program Fileschromedriver84chromedriver.exe"
options = webdriver.ChromeOptions()
options.binary_location = r"C:Program FilesGoogleChromeApplicationchrome.exe"
driver = webdriver.Chrome(chrome_driver_path, options=options)
driver.get(url)
source = driver.page_source
inputElement = driver.find_element_by_id('txtTicker')
inputElement.send_keys(ticker)
inputElement.submit()
tickers = [line.rstrip() for line in open(r"C:Python38Projectsticker_list.txt", "r")]
for ticker in tickers:
get_file(ticker)
if os.path.exists(r'C:UsersDownloadsquotedata.dat'):
if os.stat(r'C:UsersDownloadsquotedata.dat').st_size != 0:
df = pd.read_csv(r'C:UsersDownloadsquotedata.dat',
header=None, sep=',', engine='python',skiprows=2)
new_header = df.iloc[0]
df = df[1:]
df.columns = new_header
print(df)
store_path = r"D:DataUSOption Data{}{} data.csv".format(ticker,ticker)
print(store_path)
df.to_csv(store_path, index = False)

os.remove(r"C:UsersDownloadsquotedata.dat")
count = count + 1
print("Processed {} / {} Tickers".format(count, len_tickers))

只需在脚本的开头定义driver一次，然后在get_file函数中使用它：

chrome_driver_path=r"D:Program Fileschromedriver84chromedriver.exe"
options = webdriver.ChromeOptions()
options.binary_location = r"C:Program FilesGoogleChromeApplicationchrome.exe"
driver = webdriver.Chrome(chrome_driver_path, options=options)
def get_file(ticker, url):
driver.get(url)
...
tickers = [line.rstrip() for line in open(r"C:Python38Projectsticker_list.txt", "r")]
for ticker in tickers:
get_file(ticker)
...

相关内容

最新更新

热门标签：