我需要从Java中解析的网页中删除HTTP标头。
HTTP/1.1 404 Not Found
Date: Wed, 28 Oct 2009 14:10:05 GMT
Server: Apache/2.2.11 (Unix) mod_ssl/2.2.11 OpenSSL/0.9.8i DAV/2 mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635
Last-Modified: Tue, 02 Jun 2009 17:40:52 GMT
ETag: "18ac11-d16-46b610b465100"
Accept-Ranges: bytes
Content-Length: 3350
Connection: close
Content-Type: text/html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head profile="http://gmpg.org/xfn/11">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
如上所示,前几行是 http 标头。我需要摆脱它们来处理解析的页面,但是,我不确定如何做到这一点,因为标题的长度和内容各不相同。
谁能帮我解决这个问题?
您可以简单地获取索引,例如 <html
并子字符串此字符串。
text.substring(text.indexOf("<html"))