我需要迭代表单,并用不同的选项填写它。我已经可以使用scrapy和python进行一组变量爬网/ scrape 数据,但是我需要通过其中的列表进行迭代。
目前,我的蜘蛛可以登录,填充表格和刮擦数据。
登录并完成我使用的表格:
class FormSpider(CrawlSpider):
name= 'formSpider'
allow_domain = ['example.org']
start_urls = ['https://www.example.org/en-en/']
age = '35'
days = '21'
S1 = 'abc'
S2 = 'cde'
S3 = 'efg'
S4 = 'hij'
def parse(self, response):
token = response.xpath('//*[@name="__VIEWSTATE"]/@value').extract_first()
return FormRequest.from_response(response,
formdata={'__VIEWSTATE': token,
'Password': 'XXXXX',
'UserName': 'XXXXX'},
callback=self.scrape_main)
我使用此代码来填写表格:
def parse_transfer(self, response):
return FormRequest.from_response(response,
formdata={"Age" : self.age,
"Days" : self.days,
"Skill_1" : self.S1,
"Skill_2" : self.S2,
"Skill_3" : self.S2,
"Skill4" : self.S3
"butSearch" : "Search"},
callback=self.parse_item)
然后,i scrape 数据并将其导出为CSV。
我现在需要的是从表单中迭代输入。我正在考虑使用每个变量的列表每次更改表单(我只需要一定数量的组合(。
age = ['35','36','37','38']
days = ['10','20','30','40']
S1 = ['abc','def','ghi','jkl']
S2 = ['cde','qwe','rty','yui']
S3 = ['efg','asd','dfg','ghj']
S4 = ['hij','bgt','nhy','mju']
所以我可以以:
的方式迭代形式age[0],days[0],S1[0],S2[0],S3[0],S4[0]... age[1],days[1]... and so on
有建议吗?我对不同的选项(不仅列表(开放,以避免创建多个蜘蛛。
update
这是最终代码:
def parse_transfer(self, response):
return FormRequest.from_response(response,
formdata={"Age" : self.age,
"Days" : self.days,
"Skill_1" : self.S1,
"Skill_2" : self.S2,
"Skill_3" : self.S2,
"Skill4" : self.S3
"butSearch" : "Search"},
dont_filter=True,
callback=self.parse_item)
def parse_item(self, response):
open_in_browser(response)
# it opens all the websites after submitting the form :)
很难理解您当前的parse_transfer()
的意图,因为您的FormSpider
没有我们可以看到的self.skill_1
。另外,您可能不需要在此处继承CrawlSpider
。并将returns
更改为yields
。
要迭代表格,我建议您在将用于迭代的列表中替换您当前拥有的蜘蛛属性。
然后在parse_transfer()
def parse_transfer(self, response):
for i in range(len(age)):
yield FormRequest.from_response(response,
formdata={"Age" : self.age[i],
"Days" : self.days[i],
"Skill_1" : self.S1[i],
"Skill_2" : self.S2[i],
"Skill_3" : self.S3[i],
"Skill_4" : self.S4[i]
"butSearch" : "Search"},
callback=self.parse_item)
这可能不是基于网站接受请求的方式的可行解决方案。