我想制作一个用程序访问搜索引擎的工具。
我最近很喜欢使用YQL,并认为它可能很有用,因为它可以从HTML页面中挖掘数据。
但我在谷歌、必应和雅虎搜索中尝试过,它们似乎都屏蔽了YQL。
我想知道是否有一些鲜为人知的网站可以使用YQL。
或者实际上,如果还有任何搜索引擎提供API,那就更好了。
(事实上,我只是在搜索languages.stackexchange.com,因为Stack Exchange API没有提供一种按文本搜索的方法。)
大多数搜索引擎网站都会阻止屏幕抓取器和其他代理的访问。YQL是为了尊重robots.txt
文件而设计的,所以在许多这样的网站上它是不起作用的。
相反,我建议在HTML屏幕抓取之上再前进一步,并使用已发布的搜索API。
例如,在YQL中,有一个表提供了对Bing搜索结果的访问:
select * from microsoft.bing where query="soccer" and source in ("web","image")
你也可以看看雅虎!API或直接使用必应搜索API。