我有一个大约 7000 个对象的循环,在循环中我需要获得结构列表的不同计数。目前我正在使用 -
foreach (var product in productsToSearch)
{
Console.WriteLine("Time elapsed: {0} start", stopwatch.Elapsed);
var cumulativeCount = 0;
productStore.Add(product);
var orderLinesList = totalOrderLines
.Where(myRows => productStore.Contains(myRows.Sku))
.Select(myRows => new OrderLineStruct
{
OrderId = myRows.OrderId,
Sku = myRows.Sku
});
var differences = totalOrderLines.Except(orderLinesList);
cumulativeCount = totalOrderLinsCount - differences.Select(x => x.OrderId).Distinct().Count();
cumulativeStoreTable.Rows.Add(product, cumulativeCount);
Console.WriteLine("Time elapsed: {0} end", stopwatch.Elapsed);
}
public struct OrderLineStruct
{
public string OrderId { get; set; }
public string Sku { get; set; }
}
在获取非重复计数时,这非常慢。有人知道更有效的方法吗?我尝试使用MoreLinq,它有一个用于Linq的DisctintBy方法,但它并没有更有效,因为我已经计时了。我已经玩过 PLinq,但我有点不确定在哪里并行化这个查询。
因此,循环的每次迭代都定时在 -
已用时间:00:00:37.1142047 开始
已用时间:00:00:37.8310148 结束
= 0.7168101 秒* 7000 = 5017.6707(83.627845 分钟)
它是 Distinct() Count() 行,处理时间最长(约 0.5 秒)。变量差异有几十万个 OrderLineStruct,因此对此进行任何 linq 查询都很慢。
更新
我已经对循环进行了一些修改,现在它在大约 10 分钟内运行,而不是超过 1 小时
foreach (var product in productsToSearch)
{
var cumulativeCount = 0;
productStore.Add(product);
var orderLinesList = totalOrderLines
.Join(productStore, myRows => myRows.Sku, p => p, (myRows, p) => myRows)
.Select(myRows => new OrderLineStruct
{
OrderId = myRows.OrderId,
Sku = myRows.Sku
});
totalOrderLines = totalOrderLines.Except(orderLinesList).ToList();
cumulativeCount = totalOrderLinesCount - totalOrderLines.Select(x => x.OrderId).Distinct().Count();
cumulativeStoreTable.Rows.Add(product, cumulativeCount);
}
具有 .Except 上的 ToList() 似乎有所作为,现在我在每次迭代后删除已处理的订单,从而提高每次迭代的性能。
你在错误的地方寻找问题。
orderLinesList
、differences
和 differences.Select(x => x.OrderId).Distinct()
只是具有延迟执行的 LINQ to 对象链接查询方法,Count()
方法正在执行所有这些方法。
您的处理算法效率非常低。瓶颈是orderLinesList
查询,它为每个product
迭代整个totalOrderLines
列表,并且它被链接(包含)在Except
,Distinct
等中 - 再次,在循环内,即7000+次。
以下是 IMO 执行相同操作的示例高效算法:
Console.WriteLine("Time elapsed: {0} start", stopwatch.Elapsed);
var productInfo =
(
from product in productsToSearch
join line in totalOrderLines on product equals line.Sku into orderLines
select new { Product = product, OrderLines = orderLines }
).ToList();
var lastIndexByOrderId = new Dictionary<string, int>();
for (int i = 0; i < productInfo.Count; i++)
{
foreach (var line in productInfo[i].OrderLines)
lastIndexByOrderId[line.OrderId] = i; // Last wins
}
int cumulativeCount = 0;
for (int i = 0; i < productInfo.Count; i++)
{
var product = productInfo[i].Product;
foreach (var line in productInfo[i].OrderLines)
{
int lastIndex;
if (lastIndexByOrderId.TryGetValue(line.OrderId, out lastIndex) && lastIndex == i)
{
cumulativeCount++;
lastIndexByOrderId.Remove(line.OrderId);
}
}
cumulativeStoreTable.Rows.Add(item.Product, cumulativeCount);
// Remove the next if it was just to support your processing
productStore.Add(item.Product);
}
Console.WriteLine("Time elapsed: {0} end", stopwatch.Elapsed);
在你的例子中,正如Jon Hanna提到的,瓶颈是Except
方法。
Distinct
和Count
具有第二优先权。
可以通过对方法的每个部分强制实施枚举并放置秒表来验证这一点。
foreach (var product in productsToSearch)
{
var cumulativeCount = 0;
productStore.Add(product);
olSw.Start();
var orderLinesList = totalOrderLines
.Where(myRows => productStore.Contains(myRows.Sku))
.Select(myRows => new OrderLineStruct
{
OrderId = myRows.OrderId,
Sku = myRows.Sku
}).ToList();
olSw.Stop();
exSw.Start();
var differences = totalOrderLines.Except(orderLinesList).ToList();
exSw.Stop();
dcSw.Start();
cumulativeCount = totalOrderLinsCount - differences.Select(x => x.OrderId).Distinct().Count();
dcSw.Stop();
}
测量:
productsToSearch
计数100
totalOrderLines
计数300 000
Total olSw time: 00:00:01.3583340
Total exSw time: 00:00:14.3304959
Total dcSw time: 00:00:04.1986018
exSw
时间可以通过显式实施GetHashCode
来减少OrderLineStruct
使用显式GetHashCode
:
Total olSw time: 00:00:01.4045676
Total exSw time: 00:00:08.4691066
Total dcSw time: 00:00:03.9439711
不带冗余枚举的总时间更改:
默认GetHashCode
Total time: 00:00:18.9649790
显式GetHashCode
Total time: 00:00:12.7736320
更新:
您也可以通过更改方法逻辑来优化这一点。
例如,您可以从 totalOrderLines 创建HashSet
,然后从中删除项目。
var orderLinesList = totalOrderLines
...
.ToList();
orderLinesList.ForEach(item => totalOrderLines.Remove(item));
cumulativeCount = totalOrderLinsCount - totalOrderLines.Select(x => x.OrderId).Distinct().Count();
就我而言,它将总时间减少到 7 秒。
Total time: 00:00:07.0851111
在这种情况下,通过Dictinct
TotalOrderLines
进行枚举是一个瓶颈,但这需要O(N)
时间,这没关系。
我建议更改 LINQ 查询的这一部分
totalOrderLines.Where(myRows => productStore.Contains(myRows.Sku))
到加入以阅读如下:
totalOrderLines.Join(productStore, myRows => myRows.Sku, p => p, (myRows, p) => myRows)
这样,您只需支付一次费用,而不是让 Contains 遍历您的产品商店列表 7,000 次,效率非常低。 此外,如果可以将id设置为整数数据类型(int,long)而不是字符串,则也应该进行更快的搜索和比较。 但我想你的模型的结构已经基本确定。
totalOrderLines源自哪里?也许是MSSQL数据库?如果是这样,则必须在 OrderId 列上有一个索引。在此列上执行没有索引的 Distinct() 会强制数据库引擎遍历所有行以标识非重复值。