寻找scrapy的替代品.Selenium项目中的选择器



现在使用scrapy。选择器从驱动程序中提取数据。page_source(硒)。寻找另一种不加载scrapy库的方法。不想使用驱动程序。find_elements方法

import selenium, scrapy
from scrapy import Selector
driver.get(link)
page_source = driver.page_source
selector = Selector(text=page_source)
links = selector.xpath('//a[contains(@class, "jcs-JobTitle")]/@href').extract()
next_page =  selector.xpath('//a[@aria-label="Next Page"]/@href').extract_first()

使用parsel

parsel是scrapy选择器库,只是没有scrapy的其余部分。

代码中唯一需要更改的部分是导入。你也可以用getgetall来代替extract_firstextract

import selenium
from parsel import Selector
driver.get(link)
page_source = driver.page_source
selector = Selector(text=page_source)
links = selector.xpath('//a[contains(@class, "jcs-JobTitle")]/@href').getall()
next_page =  selector.xpath('//a[@aria-label="Next Page"]/@href').get()

最新更新