我正在使用jtidy解析器来解析网页。它正在工作,有点:
InputStream in=new URL("http://www.medicinenet.com/alopecia_areata/article.htm").openStream();
Document doc= new Tidy().parseDOM(in, null);
String titleText=doc.getElementsByTagName("title").item(0).getFirstChild().getNodeValue();
它适用于<title>...</title>
,但是我传递的网址包含大写字母<TITLE>...</TITLE>
标题标签。所以它返回空值。
如何使用java代码在一个语句中读取<TITLE>...</TITLE>
和<title>...</title>
?请帮助我。
只需检查 null,然后检查大写
String titleText=doc.getElementsByTagName("title").item(0).getFirstChild().getNodeValue();
if (titleText == null) titleText=doc.getElementsByTagName("TITLE").item(0).getFirstChild().getNodeValue();
getElementsByTagName
区分大小写,因此这是最简单的选项。