使用
现在使用scrapy。选择器从驱动程序中提取数据。page_source(硒)。寻找另一种不加载scrapy库的方法。不想使用驱动程序。find_elements方法
import selenium, scrapy
from scrapy import Selector
driver.get(link)
page_source = driver.page_source
selector = Selector(text=page_source)
links = selector.xpath('//a[contains(@class, "jcs-JobTitle")]/@href').extract()
next_page = selector.xpath('//a[@aria-label="Next Page"]/@href').extract_first()
使用parsel
parsel
是scrapy选择器库,只是没有scrapy的其余部分。
代码中唯一需要更改的部分是导入。你也可以用get
和getall
来代替extract_first
和extract
。
import selenium
from parsel import Selector
driver.get(link)
page_source = driver.page_source
selector = Selector(text=page_source)
links = selector.xpath('//a[contains(@class, "jcs-JobTitle")]/@href').getall()
next_page = selector.xpath('//a[@aria-label="Next Page"]/@href').get()