谷歌网站抓取在几次请求后被屏蔽



我们正在开发一个简单的应用程序,调用谷歌的服务之一(反向图像搜索http://www.google.com/insidesearch/features/images/searchbyimage.html通过url/Image上传图像并获取图像的实体名称)。从本质上讲,我们是在获取Google返回的结果页面(html格式),并使用简单的解析器抓取结果。

我们将此托管在谷歌应用引擎上,并发现过了一段时间后,谷歌屏蔽了我们的应用程序(通过IP识别)并发出消息说这是为了防止机器人向其网站发送请求。下面是我在web服务器的日志中发现的消息:

当Google自动检测到来自您的计算机网络的请求似乎违反了http://www.google.com/policies/terms/">服务条款时,此页面就会出现。该块将在这些请求停止后不久过期。同时,解决上述验证码后,您可以继续使用我们的服务。

此流量可能是由恶意软件、浏览器插件或发送自动请求的脚本发送的。如果你共享你的网络连接,请向你的管理员寻求帮助—使用相同IP地址的不同计算机可能负责。http://support.google.com/websearch/answer/86640">了解更多

如果您正在使用机器人已知使用的高级术语,或者非常快速地发送请求,有时可能会要求您解决CAPTCHA。

我想检查一下是否有办法解决这个问题或任何变通办法,等等。由于Google没有公开任何反向图像搜索API,我们看不到任何其他方法(除了创建http请求和抓取响应)来获得我们想要的信息。

任何线索都会有帮助。

如果你违反了服务条款,那就到此为止。任何"变通办法"都是不合适的。

这个服务完全相同,并且有一个可以合法使用的API: http://services.tineye.com/TinEyeAPI

什么是timeye API? timeye是一个反向图像搜索引擎。你可以提交一张图片到tiineye,看看它是从哪里来的,它是怎样的正在使用,或者存在修改过的映像版本。TinEye使用图像识别来执行搜索。timeye API允许a用户自动搜索数十亿的tiineye图像索引。

最新更新