在我的c++图像处理算法中,Mat.mul((、cv::pow和cv::sqrt是最耗时的操作。使用英特尔TBB是否可以加快这些操作?我是否需要编写自己的矩阵mul、pow和sqrt函数来启用TBB支持(例如,使用parallel_fo在mat上迭代(,或者OpenCV中是否包含了对这些函数的TBB支持?这些函数的并行化有什么不同的方法吗?
关于OpenCV的相似之处,请参阅"OpenCV TBB IPP OpenMP函数"问题。这些函数似乎不是并行的(尽管它们使用IPP进行了优化(。我想原因是,对这些函数的每次调用都没有太多的工作来证明并行工作的合理性。在程序的底层,矢量化(SIMD,数据并行(更合适。TBB应该首先从应用程序的顶层应用,利用函数或(最外层(循环并行性(pipeline、graph、parallel_fo(。