尝试将信息保存在不同的网页上



我有一个网站,里面有关于主题的信息(解释它是什么)。每个主题都有自己的网页。每个网页的设置都相同,我想自动检索这些信息。我正在考虑使用 wget 之类的东西来自动获取信息,但我是 wget 的新手,所以我不知道它是否会起作用,也不知道我将如何运行它以转到每个页面并获取我想要的信息。

我希望我在这里有点道理。就像我说的,我对这个问题的尝试是使用 wget 和 python 脚本?我不是在要求如何做到这一点的脚本,只是在寻找一些方向。

每隔一段时间我就会遇到同样的问题,我通常做的是这样的小脚本:

url = "www.yoursite.com/topics"
custom_regex = re.compile("insert your a regex here")
req = urllib2.Request(url, headers={"User-Agent": "Magic Browser"})
text = urllib2.urlopen(req).read()
for link in custom_regex.findall(text):
    print link

然后像这样使用它:

python script.py > urls.txt
wget -i urls

-i选项告诉 wget 下载文件中列出的所有 url,每行一个 url。

要在 Python 中检索网页,而不是使用 wget,我建议使用 python 的 urllib2 - https://docs.python.org/2/howto/urllib2.html

检索网页后,您可以使用BeautifulSoup进行解析 - http://www.crummy.com/software/BeautifulSoup/bs4/doc/- 它将为您解析html,您可以直接转到所需的网页部分。

最新更新