我正在尝试通过外壳中的Scrapy获取网站,
$ scrapy shell -s NAME="Mozilla/5.0" "http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a"
2017-08-21 20:55:07 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a> (failed 3 times): 504 Gateway Time-out
但是通过我刮擦一个我无法弄清楚的 504 错误,猜猜会是什么?
您可能正在尝试在命令行上设置用户代理字符串,但使用了错误的设置(NAME
(。尝试:
$ scrapy shell -s USER_AGENT="Mozilla/5.0" "http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a"
像这样,我得到:
2017-08-22 07:40:30 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a> (referer: None)
你被禁止了或类似的事情。尝试使用其他 IP 地址。 在我的电脑上,它给出这个:
2017-08-22 00:07:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a> (referer: None) ['partial']