我试图用wget -r爬网,但我不成功:它只是下载了第一页,并且不会更深入。顺便说一句,我是如此不成功,以至于我尝试的任何网站都无法正常工作...:)
我尝试了各种选择,但没有什么更好的选择。这是我以为我会做到的命令:
wget -r -e robots=off --user-agent="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.79 Safari/537.4" --follow-tags=a,ref --debug `http://rocky:8081/obix`
真的,我不知道。我读过的有关WGET的任何网站或文档都告诉我,它应该与WGET -R一起使用,因此我开始认为我的WGET是越野车(我在Fedora 16)。
有什么想法吗?
edit :这是我为wget -r --follow-tags=ref,a http://rocky:8081/obix/
的输出:
wget -r -follow -tags = ref,a
http://rocky:8081/obix/
-2012-10-19 09:29:51--http://rocky:8081/obix/
解决岩石... 127.0.0.1连接到岩石| 127.0.0.0.1 |:8081 ... 连接的。http请求发送,等待响应... 200好长度:792 [text/xml]保存到:"岩石:8081/obix/index.html"100%[======================================================================================>] 792 -.- K/s in 0s
2012-10-19 09:29:51(86,0 MB/s) - "岩石:8081/obix/index.html" 保存[792/792]
完成-2012-10-19 09:29:51--下载:1个文件,792 in 0s(86,0) mb/s)
通常无需给出用户代理。
应该足以给予:
wget -r http://stackoverflow.com/questions/12955253/recursive-wget-wont-work
看,为什么Wget不做您想做的事,请查看其给您的输出并在此处发布。