使用一个搜索字符串搜索4个网站目录



我经常去图书馆。布鲁克林公共图书馆、皇后区公共图书馆、纽约公共图书馆和纽约市立大学学校图书馆。当我想要一本书时,我必须去所有4个在线目录并搜索它。相反,我想编写一个程序,将图书、作者、ISBN或其他关键字作为字符串,然后返回4个搜索结果,就像我手动访问每个目录站点一样。我认为这将被认为是一个网络爬虫。我很擅长编程教程,当我知道自己在找什么的时候,我也会在谷歌上搜索一些东西。我真的不知道从哪里开始,希望你能给我一些建议。

下面是一些基于python的脚本和示例,说明如何自动爬行/抓取每个在线目录。这可以在任何语言中完成,但我认为python是最简单的。

Simple Web Crawler (Python recipe)

Scrapy

或者,如果没有预先编写的脚本,您可以使用urllib2来获取网页源,然后使用像BeautifulSoup这样的东西解析该源。对于已解析的源代码,执行一些关键字检查,并显示结果。

最新更新