Http 在 bash 中获取 ungzip 响应



>我需要手动解压缩以下页面的响应:http://muaban.net/ho-chi-minh.html

我在做

echo -e "GET /ho-chi-minh.html HTTP/1.1rnHost: muaban.netrnAccept-Encoding: gziprn" | nc muaban.net 80 > response.txt

直到响应实际包含Content-Encoding: gzipContent-Encoding: deflate标头(有时它只是纯文本),然后

cat response.txt | sed '1,14d' | zcat

但它说输入不是 gzip 格式。

以下是标题:

HTTP/1.1 200 OK
Cache-Control: public, max-age=67
Content-Type: text/html
Content-Encoding: deflate
Expires: Wed, 16 May 2012 15:20:31 GMT
Last-Modified: Wed, 16 May 2012 15:18:31 GMT
Vary: *
Server: Microsoft-IIS/7.5
X-AspNet-Version: 2.0.50727
X-Powered-By: ASP.NET
X-Proxy: 162
Date: Wed, 16 May 2012 15:19:23 GMT
Content-Length: 12618

另一个问题的答案表明IIS使用了错误的通货紧缩格式。但似乎有问题的网站随机返回deflate或(正确的)gzip,这就是为什么大卫·索瑟能够zcat它的原因(我在几次尝试中得到了 gzip)。因此,您可能希望循环并获取它,直到获得gzip版本(可能应该包括延迟和/或最大尝试次数)。

请参阅此处有关"deflate"作为HTTP内容编码含义的混淆的答案。

最好干脆不接受放气,只接受gzip。 然后服务器将不会提供放气。

如果您接受 deflate,那么您必须准备好尝试将其解码为 zlib 流(这是 HTTP 标准指定的)或原始 deflate 流(这是 Microsoft 服务器显然会错误地提供的内容)。 然后使用正确解码的那个。

zlib 和 raw deflate 格式都不是 gzip,所以 zcat 也不起作用。

您只需

将编码设置为"身份",该站点就会向您返回纯文本。

相关内容

  • 没有找到相关文章

最新更新