LINQ 为什么"Enumerable = Enumerable.Skip(N)"慢?



我在 LINQ 查询的性能方面遇到了问题,因此我创建了一个简化的小示例来演示下面的问题。 该代码采用小整数的随机列表,并返回分区为几个较小列表的列表,每个列表总计为 10 个或更少。

问题是(正如我写这篇文章的那样)使用 N 的代码花费的时间呈指数级增长。 这只是一个 O(N) 问题。 当 N=2500 时,代码需要 10 多秒才能在我的电脑上运行。

如果有人能解释正在发生的事情,我将非常感激。 谢谢,马克。

int N = 250;
Random r = new Random();
var work = Enumerable.Range(1,N).Select(x => r.Next(0, 6)).ToList();
var chunks = new List<List<int>>();
// work.Dump("All the work.");  // LINQPad Print
var workEnumerable = work.AsEnumerable();
Stopwatch sw = Stopwatch.StartNew();
while(workEnumerable.Any())  // or .FirstorDefault() != null
{
int soFar = 0;
var chunk = workEnumerable.TakeWhile( x => 
{
soFar += x;               
return  (soFar <= 10);
}).ToList();
chunks.Add(chunk);          // Commented out makes no difference.
workEnumerable = workEnumerable.Skip(chunk.Count); // <== SUSPECT
}
sw.Stop();
// chunks.Dump("Work Chunks.");   // LINQPad Print
sw.Elapsed.Dump("Time elapsed.");

>.Skip()所做的是创建一个遍历源代码的新IEnumerable,并且仅在前N元素之后才开始产生结果。你链谁知道有多少个接一个。每次调用.Any()时,都需要再次遍历所有以前跳过的元素。

一般来说,在 LINQ 中设置非常复杂的运算符链并重复枚举它们是一个坏主意。此外,由于 LINQ 是一个查询 API,因此当您尝试实现的目标相当于修改数据结构时,Skip()等方法是一个糟糕的选择。

您有效地将 Skip() 链接到相同的枚举对象。在 250 个列表中,最后一个块将从惰性枚举创建,前面有 ~25 个"Skip"枚举器类。

你会发现事情变得更快,如果你这样做了。

workEnumerable = workEnumerable.Skip(chunk.Count).ToList();

但是,我认为整个方法可以改变。

如何使用标准 LINQ 来实现相同的目标:

http://ideone.com/JIzpml上观看直播

using System;
using System.Collections.Generic;
using System.Linq;
public class Program
{
private readonly static Random r = new Random();
public static void Main(string[] args)
{
int N = 250;
var work = Enumerable.Range(1,N).Select(x => r.Next(0, 6)).ToList();
var chunks = work.Select((o,i) => new { Index=i, Obj=o })
.GroupBy(e => e.Index / 10)
.Select(group => group.Select(e => e.Obj).ToList())
.ToList();
foreach(var chunk in chunks)
Console.WriteLine("Chunk: {0}", string.Join(", ", chunk.Select(i => i.ToString()).ToArray()));
}
}

Skip()方法和其他类似的方法基本上创建了一个占位符对象,实现 IEnumerable,它引用其父枚举并包含执行跳过的逻辑。因此,循环中的跳过是非性能的,因为它们不是像您认为的那样丢弃可枚举元素,而是添加了一个新的逻辑层,当您实际需要跳过的所有元素之后的第一个元素时,该逻辑层会延迟执行。

您可以通过致电ToList()ToArray()来解决此问题。这迫使对Skip()方法进行"急切"评估,并且确实会删除您将从将枚举的新集合中跳过的元素。这会增加内存成本,并且需要知道所有元素(因此,如果您在表示无限级数的IEnumerable上运行它,祝您好运)。

第二种选择是不使用 Linq,而是使用IEnumerable实现本身来获取和控制IEnumerator。然后,无需Skip(),只需调用MoveNext()必要的次数即可。

最新更新