你可以使用Scrapy来检测网站上的新内容或页面吗



您能否持续运行scrapy并检测添加到页面的新页面或新内容?

您可以使用cronjob每隔几个小时进行一次完整的站点扫描,但如果您想在更改或添加发生时捕获它们,该怎么办?

我相信你可以用scrapy来回答你的问题。但是,http标头包含一个LastModified/ContentLength字段,您可以在不调用GET的情况下检索该字段。相反,发出HEAD调用并解析该字段,查看ContentLength或LastModified自上次GET以来是否发生了更改。

参考文献:

http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html

https://ochronus.com/http-head-request-good-uses/

相关内容

  • 没有找到相关文章

最新更新