您能否持续运行scrapy并检测添加到页面的新页面或新内容?
您可以使用cronjob每隔几个小时进行一次完整的站点扫描,但如果您想在更改或添加发生时捕获它们,该怎么办?
我相信你可以用scrapy来回答你的问题。但是,http标头包含一个LastModified/ContentLength字段,您可以在不调用GET的情况下检索该字段。相反,发出HEAD调用并解析该字段,查看ContentLength或LastModified自上次GET以来是否发生了更改。
参考文献:
http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html
https://ochronus.com/http-head-request-good-uses/