Ruby Array#[]=对于预分配的数组来说是线程安全的吗?这个可以不上锁吗



我用ruby编写了一些代码,通过线程池处理数组中的项。在这个过程中,我预先分配了一个与传入数组大小相同的结果数组。在线程池中,我在预分配的数组中分配项,但这些项的索引保证是唯一的。考虑到这一点,我是否需要在作业周围加上Mutex#synchronize

示例:

SIZE = 1000000000
def collect_via_threadpool(items, pool_count = 10)
  processed_items = Array.new(items.count, nil)
  index = -1
  length = items.length
  mutex = Mutex.new
  items_mutex = Mutex.new
  [pool_count, length, 50].min.times.collect do
    Thread.start do
        while (i = mutex.synchronize{index = index + 1}) < length do

          processed_items[i] = yield(items[i])
          # ^ do I need to synchronize around this? `processed_items` is preallocated
        end
    end
  end.each(&:join)
  processed_items
end
items = collect_via_threadpool(SIZE.times.to_a, 100) do |item|
  item.to_s
end
raise unless items.size == SIZE
items.each_with_index do |item, index|
  raise unless item.to_i == index
end
puts 'success'

(这个测试代码需要很长时间才能运行,但似乎每次都会打印"成功"。)

为了安全起见,我似乎想用Mutex#synchronize包围Array#[]=,但我的问题是:

在Ruby的规范中这个代码被定义为安全的吗?

Ruby中除了Mutex(以及由此派生的任何东西)之外,没有任何东西被指定为线程安全的。如果您想知道您的特定代码是否是线程安全的,您需要了解您的实现如何处理线程和数组。

对于MRI,调用Array.new(n, nil)实际上会为整个数组分配内存,所以如果保证线程不共享索引,那么代码就会工作。这就像让多个线程在没有互斥的情况下对不同的变量进行操作一样安全。

然而,对于其他实现,Array.new(n, nil)可能不会分配整个数组,并且稍后分配给索引可能涉及重新分配和内存拷贝,这可能会灾难性地中断。

因此,尽管您的代码可以工作(至少在MRI中),但不要依赖它。当我们讨论这个主题时,Ruby的线程甚至没有被指定为实际上并行运行。因此,如果您试图避免互斥,因为您认为您可能会看到一些性能提升,也许您应该重新考虑您的方法。

相关内容

  • 没有找到相关文章

最新更新