我想使用谷歌缓存访问其他网站的网页,即使不去看它们。
如果我触发像http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>
这样的查询,我们可以获得数据。
我发现/假设了以下事情(问题0。如果其中任何一个错误,请更正):
- 根据网站的政策,谷歌可能有也可能没有缓存信息
- 如果必须运行任何javascript,谷歌无论如何都会访问该网站
- 谷歌只存储前101KB的文本
问题1。我知道谷歌缓存只显示最近抓取的页面,但你知道这些数据有多旧吗?
问题2。如果我计划去谷歌缓存我对该网站的所有点击(假设该网站是缓存的,我对小旧页面很满意),会有什么问题吗?
问题3。Wayback Machine提供数据,但它在爬行和显示数据之间有巨大的延迟。有没有什么目录可以让我们获得最近存档的数据(比如Wayback机器和谷歌缓存)?
我知道谷歌缓存只显示最近爬网的页面,但你知道这些数据有多旧吗?
在URL 中使用cache:运算符
如果我计划去谷歌缓存我对该网站的所有点击量,有什么问题吗(假设该网站是缓存的,我对小旧页面很满意)?
所有者可以请求从缓存中删除内容
是否有任何目录可以用于获取最近存档的数据?
在URL 中使用tbs=qdr:query参数
对于问题3,虽然Wayback Machine的所有网络捕获都是6个月前的,但这在2012年已经变得不真实,现在在2016年也非常不真实。我们有很多新鲜的内容。