尝试将信息保存在不同的网页上

我有一个网站，里面有关于主题的信息（解释它是什么）。每个主题都有自己的网页。每个网页的设置都相同，我想自动检索这些信息。我正在考虑使用 wget 之类的东西来自动获取信息，但我是 wget 的新手，所以我不知道它是否会起作用，也不知道我将如何运行它以转到每个页面并获取我想要的信息。

我希望我在这里有点道理。就像我说的，我对这个问题的尝试是使用 wget 和 python 脚本？我不是在要求如何做到这一点的脚本，只是在寻找一些方向。

每隔一段时间我就会遇到同样的问题，我通常做的是这样的小脚本：

url = "www.yoursite.com/topics"
custom_regex = re.compile("insert your a regex here")
req = urllib2.Request(url, headers={"User-Agent": "Magic Browser"})
text = urllib2.urlopen(req).read()
for link in custom_regex.findall(text):
    print link

然后像这样使用它：

python script.py > urls.txt
wget -i urls

-i选项告诉 wget 下载文件中列出的所有 url，每行一个 url。

要在 Python 中检索网页，而不是使用 wget，我建议使用 python 的 urllib2 - https://docs.python.org/2/howto/urllib2.html

检索网页后，您可以使用BeautifulSoup进行解析 - http://www.crummy.com/software/BeautifulSoup/bs4/doc/- 它将为您解析html，您可以直接转到所需的网页部分。

相关内容

最新更新

热门标签：