>我需要手动解压缩以下页面的响应:http://muaban.net/ho-chi-minh.html
我在做
echo -e "GET /ho-chi-minh.html HTTP/1.1rnHost: muaban.netrnAccept-Encoding: gziprn" | nc muaban.net 80 > response.txt
直到响应实际包含Content-Encoding: gzip
或Content-Encoding: deflate
标头(有时它只是纯文本),然后
cat response.txt | sed '1,14d' | zcat
但它说输入不是 gzip 格式。
以下是标题:
HTTP/1.1 200 OK
Cache-Control: public, max-age=67
Content-Type: text/html
Content-Encoding: deflate
Expires: Wed, 16 May 2012 15:20:31 GMT
Last-Modified: Wed, 16 May 2012 15:18:31 GMT
Vary: *
Server: Microsoft-IIS/7.5
X-AspNet-Version: 2.0.50727
X-Powered-By: ASP.NET
X-Proxy: 162
Date: Wed, 16 May 2012 15:19:23 GMT
Content-Length: 12618
另一个问题的答案表明IIS使用了错误的通货紧缩格式。但似乎有问题的网站随机返回deflate
或(正确的)gzip
,这就是为什么大卫·索瑟能够zcat
它的原因(我在几次尝试中得到了 gzip)。因此,您可能希望循环并获取它,直到获得gzip版本(可能应该包括延迟和/或最大尝试次数)。
请参阅此处有关"deflate"作为HTTP内容编码含义的混淆的答案。
最好干脆不接受放气,只接受gzip。 然后服务器将不会提供放气。
如果您接受 deflate,那么您必须准备好尝试将其解码为 zlib 流(这是 HTTP 标准指定的)或原始 deflate 流(这是 Microsoft 服务器显然会错误地提供的内容)。 然后使用正确解码的那个。
zlib 和 raw deflate 格式都不是 gzip,所以 zcat 也不起作用。
将编码设置为"身份",该站点就会向您返回纯文本。