如何最好地处理'Oserror:[Errno 28]设备故障的空间

除例例外：

Oserror：[Errno 28]设备上没有剩余的空间

Traceback (most recent call last):
  File "/usr/lib/python3.6/site-packages/twisted/internet/defer.py", line 1386, in _inlineCallbacks
    result = g.send(result)
  File "/usr/lib/python3.6/site-packages/scrapy/core/downloader/middleware.py", line 53, in process_response
    spider=spider)
  File "/usr/lib/python3.6/site-packages/scrapy/downloadermiddlewares/httpcache.py", line 86, in process_response
    self._cache_response(spider, response, request, cachedresponse)
  File "/usr/lib/python3.6/site-packages/scrapy/downloadermiddlewares/httpcache.py", line 106, in _cache_response
    self.storage.store_response(spider, request, response)
  File "/usr/lib/python3.6/site-packages/scrapy/extensions/httpcache.py", line 317, in store_response
    f.write(to_bytes(repr(metadata)))
OSError: [Errno 28] No space left on device

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 300
HTTPCACHE_DIR = '/tmp/ramdisk/scrapycache' # (tmpfs on /tmp/ramdisk type tmpfs (rw,relatime,size=131072k))
HTTPCACHE_IGNORE_HTTP_CODES = ['400','401','403','404','500','504']
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

我可能是错的，但是我得到了scrapy的 filesystemcachestorage 可能无法管理它的cache (存储限制((？(。

最好使用LevelDB？

你是对的。缓存过期后，任何内容都不会删除。HTTPCACHE_EXPIRATION_SECS设置仅决定是否使用缓存响应或重新下载，对于所有HTTPCACHE_STORAGE。

如果您的缓存数据很大，则应考虑使用DB来存储而不是本地文件系统。或者，您可以扩展后端存储以添加loopingCall任务以持续删除过期的缓存。

为什么要仔细研究被忽略的数据？

我认为有两个点：

HTTPCACHE_EXPIRATION_SECS控制是使用缓存响应还是重新下载，只有您使用no-expire Cache的gurantee。不同的蜘蛛可能会设置不同的expiration_secs，删除缓存会使缓存混乱。
如果您想删除过期的缓存，则需要一个循环任务来持续检查过期的高速缓存，这会使砂纸扩展更加复杂，而不是零工。

相关内容

最新更新

热门标签：