我遇到node.js请求模块的问题。我需要获取页面的html正文,所以我以这种方式向url发出get请求:
var request = require('request');
var headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:24.0) Gecko/20100101 Firefox/40.0',
'Content-Type' : 'application/x-www-form-urlencoded'
};
var url = "http://shop.nag.ru/catalog/14019.Шкафы-телекоммуникационные/14020.Напольные-шкафы/14024.600x600/08061.SNR-TFC-376060-G";
request.get({url: url, headers: headers }, function (err, response, body) {
console.log("stat" + response.statusCode);
console.log("body" + body);
});
它以html正文作为响应。但如果你在浏览器中点击相同的链接,你会看到一个带有404 error
的页面:http://shop.nag.ru/catalog/14019.在14020年"(url使用俄语字母)。那么问题出在哪里呢?为什么请求没有返回'404'状态的响应?
尝试对url进行编码。大多数浏览器默认情况下都会这样做,所以当你试图从浏览器中点击一个url时,比如:
http://shop.nag.ru/catalog/14019.在14020年
您实际上向发送了一个请求
http://shop.nag.ru/catalog/14019.%D0%A8%D0%BA%D0%B0%D1%84%D1%8B-%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC%D0%BC-D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%BED0%BD%D0%BD-D0%BD%D1%D1%8B%D0%B5/14020。%D0%9D%D0%B0%D0%BF%D0%BE%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5-%D1%88%D0%BA%D0%B0%D1%84%D1%8B/14024.600x600/08061.SNR-TFC-37600-G`
但是,如果您在节点request
模块的帮助下运行请求,则url不会被编码。所以你应该自己做:
request.get({url: encodeURI(url), headers: headers }, function (err, response, body) {
// ...
});