我目前正在从事一个项目,该项目创建一个TCP套接字并侦听服务器传入的xml。xml有时相当大,大约1-3 mb。xml不断来自套接字,我需要在它来的时候对它进行解析。我尝试了许多解析器,如DomParser、XMLPullParser和SaxParser。萨克斯似乎是最快的,所以我继续。但现在我有时会遇到outtofmemory异常。
我在这篇文章中读到,我们应该以块的形式向解析器提供数据。
如何解析巨大的xml数据从webservice在Android应用程序?
谁能告诉我那是怎么做的?我现在的代码是InputSource xmlInputSource = new InputSource(new StringReader(response));
SAXParserFactory spf = SAXParserFactory.newInstance();
SAXParser sp = null;
XMLReader xr = null;
try{
sp = spf.newSAXParser();
xr = sp.getXMLReader();
ParseHandler xmlHandler = new ParseHandler(context.getSiteListArray().indexOf(website), context);
xr.setContentHandler(xmlHandler);
xr.parse(xmlInputSource);
postSuccessfullParsingNotification();
}catch(SAXException e){
e.printStackTrace();
}catch(ParserConfigurationException e){
e.printStackTrace();
}catch (IOException e){
e.printStackTrace();
e.toString();
}
其中response是我从socket接收到的字符串。
应该考虑其他解析器,如VTD-XML?或者是否有一种方法可以使Sax高效地工作?
Btw:每当一个新的字符串到达要解析的套接字,我打开一个新的线程来解析字符串。
This is my handler code
public class ParseHandler extends DefaultHandler {
private Website mWebsite;
private Visitor mVisitor;
private VisitorInfo mVisitorInfo;
private boolean isVisit;
private boolean isVisitor;
private AppContext appContext;
public ParseHandler(int index,AppContext context){
appContext = context;
mWebsite = appContext.getSiteListArray().get(index);
}
@Override
public void startDocument() throws SAXException {
super.startDocument();
}
@Override
public void startElement(String namespaceURI, String localName,String qName, Attributes atts)
throws SAXException {
if(localName.equals("visit")) {
isVisit = true;
} else if(localName.equals("visitor") && isVisit) {
isVisitor = true;
mVisitor = new Visitor();
mVisitor.mDisplayName = "Visitor - #"+atts.getValue("id");
mVisitor.mVisitorId = atts.getValue("id");
mVisitor.mStatus = atts.getValue("idle");
} else if(localName.equals("info") && isVisitor){
mVisitorInfo = mVisitor.new VisitorInfo();
mVisitorInfo.mBrowser = atts.getValue("browser");
mVisitorInfo.mBrowserName = atts.getValue("browser").replace("+", " ");
mVisitorInfo.mCity = atts.getValue("city").replace("+", " ");
mVisitorInfo.mCountry = atts.getValue("country");
mVisitorInfo.mCountryName = atts.getValue("country");
mVisitorInfo.mDomain = atts.getValue("domain");
mVisitorInfo.mIp = atts.getValue("ip");
mVisitorInfo.mLanguage = atts.getValue("language");
mVisitorInfo.mLatitude = atts.getValue("lat");
mVisitorInfo.mLongitude = atts.getValue("long");
mVisitorInfo.mOrg = atts.getValue("org").replace("+", " ");
mVisitorInfo.mOs = atts.getValue("os");
mVisitorInfo.mOsName = atts.getValue("os").replace("+", " ");
mVisitorInfo.mRegion = atts.getValue("region").replace("+", " ");
mVisitorInfo.mScreen = atts.getValue("screen");
}
}
@Override
public void characters(char ch[], int start, int length) {
}
@Override
public void endElement(String namespaceURI, String localName, String qName) throws SAXException {
if(localName.equals("visit")) {
isVisit = false;
} else if(localName.equals("visitor")) {
isVisitor = false;
if(mVisitor == null){
Log.e("mVisitor","mVisitor");
} else if(mVisitor.mVisitorId == null){
Log.e("mVisitor.mVisitorId","mVisitor.mVisitorId");
}
mWebsite.mVisitors.put(mVisitor.mVisitorId, mVisitor);
} else if(localName.equals("info") && isVisitor) {
mVisitor.mVisitorInfo = mVisitorInfo;
}
}
@Override
public void endDocument() throws SAXException {
}
}
* * 编辑:AFTER THOUGHTS.
* *在进一步调查之后,我发现我的解析并没有引起异常。每次我从套接字接收到一个流,我就把它存储在一个String中,并不断追加,直到我们在流中得到"n"。"n"用于表示xml块的结束。字符串导致内存异常。我尝试了StringBuilder,但这也导致了同样的问题。我不知道为什么会这样。
现在我尝试直接发送输入流进行解析,但最后的"n"会导致解析异常。我们是否可以设置任何内容以使解析器忽略"n"?
似乎您正在将整个xml文件传递给解析器,因此每当文件太大时,您就会得到outOfMemory异常。
您应该尝试从套接字中以块的形式读取输出,并在输出时将其提供给解析器。所以你会在循环中执行xr.parse()
另一个帖子是关于我的问题的,那里的答案是我的问题的解决方案。
这是给遇到这个问题的人的解决办法。
从套接字读取大量xml数据并动态解析