我正在使用Python 2.7.5和OpenCV。我有一个测试图像,我想在图像数组中找到它最相似的图像。我用OpenCV写了一个函数,它会给我相似点的总数。相似点越多,图像就越相似。不幸的是,这是一个相当耗时的函数,所以我想并行化我的代码,使它更快。
#img is the image that I am trying to find the most number of similar pointswith
maxSimilarPts = 0;
#testImages is a list of testImages
for testImage in testImages:
#getNumSimilarPts returns the number of similar points between two images
similarPts = getNumSimilarPts(img, testImage)
if similarPts > maxSimilarPts:
maxSimilarPts = similarPts
我如何与python并行执行此操作?
下面是原始代码的一个(未经测试的)并行版本。它并行运行5个工人。每个程序都从输入队列中获取一个图像,计算相似值,然后将值和图像放到输出队列中。当所有工作完成后,不再有图像,然后父进程打印最相似的图像的(similarity, imageID)。
# adapted from Raymond Hettinger
# http://stackoverflow.com/questions/11920490/how-do-i-run-os-walk-in-parallel-in-python/23779787#23779787
from multiprocessing.pool import Pool
from multiprocessing import JoinableQueue as Queue
import os, sys
def parallel_worker():
while True:
testImage = imageq.get()
similarPts = getNumSimilarPts(img, testImage)
similarq.put( [similarPts, testImage] )
imageq.task_done()
similarq = Queue()
imageq = Queue()
for testImage in testImages:
imageq.put(testImage)
pool = Pool(5)
for i in range(5):
pool.apply_async(parallel_worker)
imageq.join()
print 'Done'
print max(similarq)
重要提示:
此代码只能在python3上本地工作。要在python2上运行它,必须安装concurrent。期货PyPI包。
from concurrent.futures import ProcessPoolExecutor
def multiprocess_max(iterable, key):
with ProcessPoolExecutor() as executor:
return max(executor.map(lambda item: (item, key(item)), iterable),
key=lambda item: item[1])[0]
背后的思想是:
开销较大的过程是计算用于比较项的键。那么,为什么不通过多进程计算键,而只使用一个进程进行比较呢?
下面是它的工作原理:
创建一个concurrent.futures.ProcessPoolExecutor
,这是一个易于使用的围绕multiprocessing
模块的包装器,并提供一个map()
函数,类似于内置函数,但可以并发工作。
然后,从集合中,为每个项目创建具有2个元素的元组:原始项目(我们想要返回的,如果它的键是最大值)和键,使用传递的key
函数计算。
得到结果后,将其传递给内置的max()
-但是我们有一个问题:集合现在是元组的集合!因此,我们传递一个key
函数,该函数返回第二个项——计算出的键。
最后,由于max()
返回整个项(其中包括不需要的键),我们从其结果中提取第一个项—原始项并返回它。
在此代码锁定在我的控制台后(IDLE;我发现这个问题是因为我也需要它),我认为我的解决方案是错误的:-)
但我错了,不是解决办法。此解决方案在解释器中不起作用。来自文档:
__main__
模块必须可以被工作子进程导入。这表示ProcessPoolExecutor
将无法在交互中工作翻译。