node.js request.get以html正文响应,忽略404状态



我遇到node.js请求模块的问题。我需要获取页面的html正文,所以我以这种方式向url发出get请求:

var request = require('request');
var headers = { 
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:24.0) Gecko/20100101 Firefox/40.0',
    'Content-Type' : 'application/x-www-form-urlencoded' 
};
var url = "http://shop.nag.ru/catalog/14019.Шкафы-телекоммуникационные/14020.Напольные-шкафы/14024.600x600/08061.SNR-TFC-376060-G";
request.get({url: url, headers: headers }, function (err, response, body) {
  console.log("stat" + response.statusCode);
   console.log("body" + body);
}); 

它以html正文作为响应。但如果你在浏览器中点击相同的链接,你会看到一个带有404 error的页面:http://shop.nag.ru/catalog/14019.在14020年"(url使用俄语字母)。那么问题出在哪里呢?为什么请求没有返回'404'状态的响应?

尝试对url进行编码。大多数浏览器默认情况下都会这样做,所以当你试图从浏览器中点击一个url时,比如:

http://shop.nag.ru/catalog/14019.在14020年

您实际上向发送了一个请求

http://shop.nag.ru/catalog/14019.%D0%A8%D0%BA%D0%B0%D1%84%D1%8B-%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC%D0%BC-D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%BED0%BD%D0%BD-D0%BD%D1%D1%8B%D0%B5/14020。%D0%9D%D0%B0%D0%BF%D0%BE%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5-%D1%88%D0%BA%D0%B0%D1%84%D1%8B/14024.600x600/08061.SNR-TFC-37600-G`

但是,如果您在节点request模块的帮助下运行请求,则url不会被编码。所以你应该自己做:

request.get({url: encodeURI(url), headers: headers }, function (err, response, body) { 
    // ... 
});

最新更新