使用来自互联网的缓存网络数据(谷歌缓存、Wayback Machine等)



我想使用谷歌缓存访问其他网站的网页,即使不去看它们。

如果我触发像http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>这样的查询,我们可以获得数据。

我发现/假设了以下事情(问题0。如果其中任何一个错误,请更正):

  1. 根据网站的政策,谷歌可能有也可能没有缓存信息
  2. 如果必须运行任何javascript,谷歌无论如何都会访问该网站
  3. 谷歌只存储前101KB的文本

问题1。我知道谷歌缓存只显示最近抓取的页面,但你知道这些数据有多旧吗?

问题2。如果我计划去谷歌缓存我对该网站的所有点击(假设该网站是缓存的,我对小旧页面很满意),会有什么问题吗?

问题3。Wayback Machine提供数据,但它在爬行和显示数据之间有巨大的延迟。有没有什么目录可以让我们获得最近存档的数据(比如Wayback机器和谷歌缓存)?

我知道谷歌缓存只显示最近爬网的页面,但你知道这些数据有多旧吗?

在URL 中使用cache:运算符

如果我计划去谷歌缓存我对该网站的所有点击量,有什么问题吗(假设该网站是缓存的,我对小旧页面很满意)?

所有者可以请求从缓存中删除内容

是否有任何目录可以用于获取最近存档的数据?

在URL 中使用tbs=qdr:query参数

对于问题3,虽然Wayback Machine的所有网络捕获都是6个月前的,但这在2012年已经变得不真实,现在在2016年也非常不真实。我们有很多新鲜的内容。

相关内容

  • 没有找到相关文章