用于抓取站点的API



只是想知道,谷歌或任何其他公司提供API,允许您接收抓取的链接?我想过滤链接与。txt扩展和可能的另一个额外的扩展只有。

如果没有,我如何去抓取/索引页面,但细化它到我选择的扩展?我也不想卷入任何法律纠纷,所以我必须遵守robots。txt吗?我还需要一个大的数据库来抓取这些文件的内容吗?我想抓取随机链接(与我选择的扩展),在DMOZ的起点。

如果要在。txt扩展名中搜索特定的术语,可以使用Bing搜索API (https://datamarket.azure.com/dataset/bing/search)或Yahoo (developer.yahoo.com/boss/search/)。但是你得到的结果数量是有限的。你得为此付出巨大的代价。

但是如果你想要随机链接的文本文件,你可以用nutch建立你自己的搜索引擎。你可以配置nutch来抓取特定的文件扩展名。

www.building-blocks.com/thinking/building-a-search-engine-with-nutch-and-solr-in-10-minutes/

stackoverflow.com/questions/8971886/nutch-how-to-crawl-a-specific-file-type

最新更新