我不知道我面临的问题是由于嵌套循环还是由于其他原因(错误代码,大数据)。 让我解释一下,希望有人可以帮助我弄清楚:-
我正在开发一个Windows Phone 8应用程序。启动时,应用程序对 3 个不同的页面进行三次 httpclient 调用,然后将每个响应(html)转换为 xml,然后转换为 json 数据(OBS!!这工作正常,没有问题)。在此阶段,我想从这 3 个 json 中提取数据,并将提取的数据合并到一个新的 Json 中,以便稍后保存到隔离存储中。为了进行这种提取,我使用了多个 foreach 循环,甚至有时使用了 linq(我认为这是问题所在)。每个 foreach 循环可能会执行 50 到>500 次迭代。提取过程几乎需要 2 分钟,我认为这很重要。下面你可以看到我的代码片段:-
public async Task LoadData()
{
//baseUri definition....
await CookieHandler.GetCookies(baseUri);
_reqPList=new RequestResponse();
await _reqPList.GetResponse(baseUri, pList); // First page request
XmlConvertor.ConvertToXml(_reqPList.Response); //First page convert to xml
var phoneListResponse = XmlConvertor.XmlString;
//Second and third page request and convert to xml
var handler = new DataHandler();
await handler.phoneListHandler(phoneListResponse); //First page convert to Json
//Second and third page convert to Json
var jObject = JObject.Parse(handler.PhoneListJson);
var jCollection = jObject["tbody"]["tr"].Children();
//The start of extracting data
using (var stream = new MemoryStream())
using (var streamWriter=new StreamWriter(stream))
using (_jsonW = new JsonTextWriter(streamWriter))
{
var watch = Stopwatch.StartNew();
_jsonW.WriteStartArray();
foreach (var item in jCollection) //First foreach loop (100 iteration) using the first page
{
var arr = item.Value<JArray>("td");
if (arr == null) continue;
_jsonW.Formatting = Formatting.Indented;
_jsonW.WriteStartObject();
_jsonW.WritePropertyName("Name");
_jsonW.WriteValue(arr[0].Value<string>());
#region Info Array
_jsonW.WritePropertyName("Info");
_jsonW.WriteStartArray();
// Do some extraction
_jsonW.WriteEndArray();
#endregion
#region Schedule Array
await ScheduleArrayAsync(item, handler.ScheduleJson, handler); // This method extract data from 2nd page
#endregion
#region Current activity
CurrActivityAsync(item, handler.CurrActivitiesJson); // This method extract data from 3rd page
#endregion
_jsonW.WriteEndObject();
}
_jsonW.WriteEndArray();
watch.Stop();
var j = watch.ElapsedMilliseconds;
await streamWriter.FlushAsync();
stream.Position = 0;
using (var streamReader=new StreamReader(stream))
{
var json = await streamReader.ReadToEndAsync();
}
}
this.IsDataLoaded = true;
}
private void CurrActivityAsync(JToken token, string jString) This method is called 1 time only
{
var arr = token.Value<JArray>("td");
var personNameArray = arr[0].Value<string>().Split(',');
if (!_owner.Contains(personNameArray[0])) return;
var jObject = JObject.Parse(jString);
var jCollection = jObject["tbody"]["tr"].Children();
_jsonW.WritePropertyName("Current activity");
_jsonW.WriteStartArray();
foreach (var array in from item in jCollection // Second foreach loop (Almost 60 iteration)
let array = item.Value<JObject>().Value<JArray>("td")
where array != null && item.Children().Count() > 1
select array)
{
_jsonW.WriteStartObject();
// do some extraction
_jsonW.WriteEndObject();
}
_jsonW.WriteEndArray();
}
private async Task ScheduleArrayAsync(JToken token, string jString, DataHandler handler) // This method is called 100 times.
{
var arr = token.Value<JArray>("td");
var personNameArray = arr[0].Value<string>().Split(',');
var jObject = JObject.Parse(jString);
var trList = jObject["tbody"]["tr"];
var selectedArray = default(JArray);
var weekNumber = trList.SelectMany(tr => tr.SelectTokens("td[1].table.tbody.tr", false))
.SelectMany(lk => lk.SelectTokens("td", false))
.Where(j => (!j.HasValues) && (j.Value<string>().Contains("v")))
.Select(lo => lo.Value<string>())
.ToArray();
var psTypeOne = trList.SelectMany(tr => tr.SelectTokens("td[0].a.#text", false))
.Where(hashText => (hashText.Value<string>().Contains(personNameArray[0])) &&
(hashText.Value<string>().Contains(personNameArray[1])))
.Select(td => td.Parent.Parent.Parent.Parent.Parent)
.ToArray();
if (psTypeOne != null)
{
_jsonW.WritePropertyName("Schedule");
_jsonW.WriteStartArray();
_jsonW.WriteStartObject();
_jsonW.WritePropertyName("Week Number");
_jsonW.WriteValue(weekNumber[0].Remove(0, 2));
_jsonW.WritePropertyName("Week days");
_jsonW.WriteStartArray();
foreach (var day in selectedArray) // 7 itereation
{
if (day.SelectToken("table", false) == null) continue;
_jsonW.WriteStartObject();
_jsonW.WritePropertyName("Day name");
var dayname = Convert.ToDateTime(day.Value<string>("@id").Remove(0, 8));
_jsonW.WriteValue(dayname.DayOfWeek.ToString());
_jsonW.WritePropertyName("Date");
_jsonW.WriteValue(day.Value<string>("@id").Remove(0, 8));
var assignments = day.SelectToken("table.tbody.tr", false);
_jsonW.WritePropertyName("Assignments");
_jsonW.WriteStartArray();
//Foreach loop 2 start or Foreach
foreach (var assignment in assignments) // between 1 and 5 iterations
{
//Some extractions
if (info[0].Contains("slotInfo")) //Here we do some new webrequests and extractions
{
await _reqPList.GetSlotInfoPost(info[1]);
XmlConvertor.ConvertToXml(_reqPList.Response);
addedInfo = XmlConvertor.XmlString;
await handler.InfoHandler(addedInfo);
var jO = JObject.Parse(handler.InfoJson);
addedJToken = jO.SelectToken("td");
// Some extractions
}
}
else
{
// Some code
}
}
//Foreach loop 2 end
//Some code to Close the Array
}
//Foreach loop 1 end
//some code to Close the Array
}
}
现在考虑到所有这些迭代和方法调用,我可以优化代码以在 2 分钟内更快地完成处理吗?
编辑:-
让我为您提供有关我在代码开头解析的页面的更多信息。首先,它的页面属于我们在工作中使用的在线时间表网站。他们没有任何 API 可以使用。这就是为什么我需要解析 Httpclient HtmlResponse 并将其转换为 xml 然后是 json。
其次,这些页面中的每一个都有一个非常复杂的结构,加上糟糕的命名。请看下面:-
<tr class="odd">
<td class="user" onmouseover="userInfo('469');" onmouseout="userInfo(0);" onmousemove="moveSlotInfo();"> User One</td> // User One is needed
<td id="day-469-2014-03-31" style="vertical-align: top;">
<table class="ss" cellspacing="1">
<tbody>
<tr>
<td class="as"> </td>
</tr>
</tbody>
</table>
</td>
<td id="day-469-2014-04-01" style="vertical-align: top;"> // The date is needed
<table class="ss" cellspacing="1">
<tbody>
<tr>
<td class="as" style="color: #ffffff; background-color: #4040ff;" onmouseover="this.className=(document.week_vs_doctor.activityId.value==-1?'sd':'sp');slotInfo('177738',false);" onmouseout="this.className='as';slotInfo(0,false);" onmousemove="moveSlotInfo();">KAVAul</td> // KAVAul is needed
</tr>
</tbody>
</table>
</td>
产科!!这只是一个演示代码来说明一个观点(我知道它不起作用)。
即使我将其转换为 Json,它仍然需要佐剂,这就是为什么我决定根据需要重写此 json 的原因。看看这个代码片段,因为它显示了我是如何需要它的。
[
{
"Name": "User Name",
"Info": [
{
"Signature": "un"
},
{
"Group": "Group1"
},
{
"E-mail": "user.name@group1.com"
}
],
"Schedule": [
{
"Week Number": "14",
"Week days": [
{
"Day name": "Monday",
"Date": "2014-03-31",
"Assignments": [
{
"Assignment name": "AAA",
"Assignment time": "07:30 - 16:00",
"Assignment provider": "BBB, 2014-03-07 16:42"
}
产科!!我知道 json 数据需要关闭,这只是为了说明一点。
我认为使用 htmlagility pack 简单地从 httprequest 响应遍历 html 可能会更简单。
一个自定义类,它准确地表示你是具有可序列化属性的最终对象,当类被填充时,调用 javascript 序列化程序将所有对象序列化为 json 对象(您可以使用 json 转换器在线转换自定义类中的 json,这样您就可以简单地将 json 反序列化为自定义对象而不会出现问题,反之亦然)。
还有另一个重要的东西:数据维度。如果您处理的数据很少,那么处理大数据会更快吗,这将需要更多的时间来响应和更多的时间来处理。
你能告诉我们哪些是涉及的页面,哪个是最终的 json 对象???