我可以更新Parallel.For正在使用的集合吗



我有一种情况,我正在运行一些任务,每个任务需要几秒到几分钟的时间。我也有可能添加更多的数据,这些数据需要添加到已经运行的并行循环中。是否可以更新Parallel.For正在使用的当前集合,并让它继续对此进行迭代,直到没有更多对象可检索为止?下面是一些显示我的问题的示例代码:

[Test]
public void DoesParallelForGetNewEntriesInLoop()
{
    ConcurrentDictionary<int, string> dict = new ConcurrentDictionary<int, string>();
    ConcurrentBag<string> bag = new ConcurrentBag<string>();
    int i = 0;
    // write to dictionary every 10ms simulating new additions
    Timer t = new Timer(callback =>
    {
        dict.TryAdd(i++, "Value" + i);
    }, dict, 0, 10);
    // Add initial values
    dict.TryAdd(i++, "Value" + i);
    dict.TryAdd(i++, "Value" + i);
    dict.TryAdd(i++, "Value" + i);
    Parallel.For(0, dict.Count, (a, state) =>
    {
        string val = string.Empty;
        if (dict.TryGetValue(a, out val))
        {
            bag.Add(val + Environment.NewLine);
        }
        if (i++ == 50)
            state.Stop();
        Thread.Sleep(5000);
    });
    foreach (var item in bag)
    {
        File.AppendAllText("parallelWrite.txt", item);
    }            
}

当我运行这个时,我得到的结果很简单:

Value2
Value1
Value3
Value4

有没有更好的方法来做我在这里要做的事情?

Parallel.ForEach 中使用BlockingCollection并调用GetConsumingEnumerable()怎么样

BlockingCollection<string> collection = new BlockingCollection<string>();
Parallel.ForEach(collection.GetConsumingEnumerable(), (x) => Console.WriteLine(x));

您可以使用BlockingCollection的Add()方法将内容添加到集合中。

从技术上讲,存在"双重锁定",因为Parallel.ForEach在从可枚举对象中获取大块项目进行处理时会锁定集合,而BlockingCollection是为支持多个使用者而构建的,因此它也实现了锁定。如果这成为一个性能问题(很可能),那么您可以为BlockingCollection实现自己的partitioner,因为Parallel.ForEach有接受OrderablePartitioner和partitioner的重载。有一篇非常好的文章描述了如何在这里:http://blogs.msdn.com/b/pfxteam/archive/2010/04/06/9990420.aspx

Parallel.For中的from和to参数在循环开始前只计算一次。使用Parallel.ForEach迭代新项目。我不确定你想实现什么,但更好的方法可能是将新数据放在堆栈/队列中,并定期弹出数据进行处理。