嗨,我正在使用Scrpayd来安排我的蜘蛛。问题是我想跟踪到目前为止安排的作业的所有历史信息。但是,如果刮板服务器重新启动,则所有信息都将被删除。
我的问题是,有没有其他方法可以将这些值存储到像sql server这样的持久存储中?
或者有没有其他方法可以做到这一点?
谁能帮我?
谢谢
蜘蛛中间件非常适合完成这项工作。您可以在蜘蛛完成工作后立即将统计信息和其他所需信息保存在数据库中。
这是一个草案:
from scrapy import signals
import os
class UpdateStatsMiddleware(object):
def __init__(self, crawler):
self.crawler = crawler
# register close_spider method as callback for the spider_closed signal
crawler.signals.connect(self.close_spider, signals.spider_closed)
@classmethod
def from_crawler(cls, crawler):
return cls(crawler)
def get_jobid(self):
"""Gets jobid through scrapyd's SCRAPY_JOB env variable"""
return os.environ['SCRAPY_JOB']
def close_spider(self, spider, reason):
# do your magic here...
spider.log('Finishing spider with reason: %s' % reason)
stats = self.crawler.stats.get_stats()
jobid = self.get_jobid()
self.update_job_stats(jobid, stats)
def update_job_stats(self, jobid, stats):
# do your magic here...
pass
http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.htmlhttp://scrapy.readthedocs.org/en/latest/topics/signals.html