我比较了blitz++, armadillo, boost::MultiArray与以下代码(从旧帖子中借用)
#include <iostream>
using namespace std;
#include <windows.h>
#define _SCL_SECURE_NO_WARNINGS
#define BOOST_DISABLE_ASSERTS
#include <boost/multi_array.hpp>
#include <blitz/array.h>
#include <armadillo>
int main(int argc, char* argv[])
{
const int X_SIZE = 1000;
const int Y_SIZE = 1000;
const int ITERATIONS = 100;
unsigned int startTime = 0;
unsigned int endTime = 0;
// Create the boost array
//------------------Measure boost Loop------------------------------------------
{
typedef boost::multi_array<double, 2> ImageArrayType;
ImageArrayType boostMatrix(boost::extents[X_SIZE][Y_SIZE]);
startTime = ::GetTickCount();
for (int i = 0; i < ITERATIONS; ++i)
{
for (int x = 0; x < X_SIZE; ++x)
{
for (int y = 0; y < Y_SIZE; ++y)
{
boostMatrix[x][y] = 1.0001;
}
}
}
endTime = ::GetTickCount();
printf("[Boost Loop] Elapsed time: %6.3f secondsn", (endTime - startTime) / 1000.0);
}
//------------------Measure blitz Loop-------------------------------------------
{
blitz::Array<double, 2> blitzArray( X_SIZE, Y_SIZE );
startTime = ::GetTickCount();
for (int i = 0; i < ITERATIONS; ++i)
{
for (int x = 0; x < X_SIZE; ++x)
{
for (int y = 0; y < Y_SIZE; ++y)
{
blitzArray(x,y) = 1.0001;
}
}
}
endTime = ::GetTickCount();
printf("[Blitz Loop] Elapsed time: %6.3f secondsn", (endTime - startTime) / 1000.0);
}
//------------------Measure armadillo loop----------------------------------------
{
arma::mat matArray( X_SIZE, Y_SIZE );
startTime = ::GetTickCount();
for (int i = 0; i < ITERATIONS; ++i)
{
for (int y = 0; y < Y_SIZE; ++y)
{
for (int x = 0; x < X_SIZE; ++x)
{
matArray(x,y) = 1.0001;
}
}
}
endTime = ::GetTickCount();
printf("[arma Loop] Elapsed time: %6.3f secondsn", (endTime - startTime) / 1000.0);
}
//------------------Measure native loop----------------------------------------
// Create the native array
{
double *nativeMatrix = new double [X_SIZE * Y_SIZE];
startTime = ::GetTickCount();
for (int i = 0; i < ITERATIONS; ++i)
{
for (int y = 0; y < Y_SIZE*X_SIZE; ++y)
{
nativeMatrix[y] = 1.0001;
}
}
endTime = ::GetTickCount();
printf("[Native Loop]Elapsed time: %6.3f secondsn", (endTime - startTime) / 1000.0);
delete[] nativeMatrix;
}
//------------------Measure boost computation-----------------------------------
{
typedef boost::multi_array<double, 2> ImageArrayType;
ImageArrayType boostMatrix(boost::extents[X_SIZE][Y_SIZE]);
for (int x = 0; x < X_SIZE; ++x)
{
for (int y = 0; y < Y_SIZE; ++y)
{
boostMatrix[x][y] = 1.0001;
}
}
startTime = ::GetTickCount();
for (int i = 0; i < ITERATIONS; ++i)
{
for (int x = 0; x < X_SIZE; ++x)
{
for (int y = 0; y < Y_SIZE; ++y)
{
boostMatrix[x][y] += boostMatrix[x][y] * 0.5;
}
}
}
endTime = ::GetTickCount();
printf("[Boost computation] Elapsed time: %6.3f secondsn", (endTime - startTime) / 1000.0);
}
//------------------Measure blitz computation-----------------------------------
{
blitz::Array<double, 2> blitzArray( X_SIZE, Y_SIZE );
blitzArray = 1.0001;
startTime = ::GetTickCount();
for (int i = 0; i < ITERATIONS; ++i)
{
blitzArray += blitzArray*0.5;
}
endTime = ::GetTickCount();
printf("[Blitz computation] Elapsed time: %6.3f secondsn", (endTime - startTime) / 1000.0);
}
//------------------Measure armadillo computation-------------------------------
{
arma::mat matArray( X_SIZE, Y_SIZE );
matArray.fill(1.0001);
startTime = ::GetTickCount();
for (int i = 0; i < ITERATIONS; ++i)
{
//matArray.fill(1.0001);
matArray += matArray*0.5;
}
endTime = ::GetTickCount();
printf("[arma computation] Elapsed time: %6.3f secondsn", (endTime - startTime) / 1000.0);
}
//------------------Measure native computation------------------------------------------
// Create the native array
{
double *nativeMatrix = new double [X_SIZE * Y_SIZE];
for (int y = 0; y < Y_SIZE*X_SIZE; ++y)
{
nativeMatrix[y] = 1.0001;
}
startTime = ::GetTickCount();
for (int i = 0; i < ITERATIONS; ++i)
{
for (int y = 0; y < Y_SIZE*X_SIZE; ++y)
{
nativeMatrix[y] += nativeMatrix[y] * 0.5;
}
}
endTime = ::GetTickCount();
printf("[Native computation]Elapsed time: %6.3f secondsn", (endTime - startTime) / 1000.0);
delete[] nativeMatrix;
}
return 0;
}
在windows, VS2010,结果是
[Boost Loop] Elapsed time: 1.217 seconds
[Blitz Loop] Elapsed time: 0.046 seconds
[arma Loop] Elapsed time: 0.078 seconds
[Native Loop]Elapsed time: 0.172 seconds
[Boost computation] Elapsed time: 2.152 seconds
[Blitz computation] Elapsed time: 0.156 seconds
[arma computation] Elapsed time: 0.078 seconds
[Native computation]Elapsed time: 0.078 seconds
在windows, intel c++,结果是
[Boost Loop] Elapsed time: 0.468 seconds
[Blitz Loop] Elapsed time: 0.125 seconds
[arma Loop] Elapsed time: 0.046 seconds
[Native Loop]Elapsed time: 0.047 seconds
[Boost computation] Elapsed time: 0.796 seconds
[Blitz computation] Elapsed time: 0.109 seconds
[arma computation] Elapsed time: 0.078 seconds
[Native computation]Elapsed time: 0.062 seconds
奇怪的事情:
(1) with VS2010, native computation (including loop) is faster than native loop
(2) blitz loop behave so different under VS2010 and intel C++.
要用intel c++编译器编译blitz++,在blitz/intel/文件夹下需要一个名为bzconfig.h的文件。但事实并非如此。我只是复制blitz/ms/bzconfig.h中的一个。这可能会给出一个非最优配置。谁能告诉我如何编译闪电战++与英特尔c++编译器?在手册中,它说运行bzconfig脚本来获得正确的bzconfig.h。但我不明白这是什么意思。
非常感谢!
加上一些我的结论:
1. Boost multi array is the slowest.
2. With intel c++ compiler, native pointers are very fast.
3. With intel c++ compiler, armadillo can achieve the performance of native pointers.
4. Also test eigen, it is x0% slower than armadillo in my simple cases.
5. Curious about blitz++'s behavior in intel c++ compiler with proper configuration.
Please see my question.
简短的回答:./configure CXX=icpc
,通过阅读Blitz++用户指南找到的。
长答:
要用intel c++编译器编译blitz++,在blitz/intel/文件夹下需要一个名为bzconfig.h的文件。但是没有。
是的,是的。Blitz++应该自己生成文件。根据Blitz++用户指南blitz.pdf
包含在blitz-0.10.tar.gz
"安装"部分,
Blitz++使用GNU Autoconf,它处理为各种平台和编译器重写makefile。
更准确地说,Blitz++使用GNU autotools工具链(automake, autoconf, configure),它可以生成makefiles, configure脚本,头文件等等。bzconfig.h
文件应该由configure
脚本生成,该脚本随Blitz++一起提供,可以随时使用。
我只是复制blitz/ms/bzconfig.h中的一个。这可能会给出一个非最佳配置。
如果"非最佳"对你来说意味着"不工作",那么是的。:-)你需要一个能准确表示编译器的intel/bzconfig.h
。
谁能告诉我如何编译闪电战++与英特尔c++编译器?
阅读并遵循良好的手册,特别是上面提到的"安装"部分。
进入"blitz-VERSION"目录,然后输入:
./configure CXX=[compiler]
其中[compiler]是xlc++、icpc、pathCC、xlc、cxx、aCC、CC、g++、KCC、pgCC或FCC中的一个。(如果您不选择c++编译器,configure脚本将尝试为当前平台找到合适的编译器。)
你这样做了吗?对于Intel编译器,您需要使用./configure CXX=icpc
.
在手册中,它说运行bzconfig脚本来获得正确的bzconfig.h。但我不明白这是什么意思。
我认为你所说的"it"是指"that"。你说的"手动"是什么意思?我的Blitz++用户指南没有提到bzconfig
。您确定使用的是与Blitz++版本对应的手册吗?
PS:在Blitz -0.10的内容中寻找"bzconfig",看起来"bzconfig"不再是Blitz++的一部分,但曾经是:
find . -name bzconfig
->无结果
find . -print0 | xargs -0 grep -a -i -n -e bzconfig
:
./blitz/compiler.h:44: #error In <blitz/config.h>: A working template implementation is required by Blitz++ (you may need to rerun the compiler/bzconfig script)
需要更新
./blitz/gnu/bzconfig.h:4:/* blitz/gnu/bzconfig.h. Generated automatically at end of configure. */
./configure.ac:159:# autoconf replacement of bzconfig
好了,这些bzconfig.h
文件应该由configure
生成。
./ChangeLog.1:1787: will now replace the old file that was generate with the bzconfig
这可能是切换到autoconf的更改。
./INSTALL:107: 2. Go into the compiler subdirectory and run the bzconfig
需要更新。这就是你寻找bzconfig
的原因吗?
./README:27:compiler Compiler tests (used with obsolete bzconfig script)
需要更新,不再包含compiler
目录
据我所知,您是通过测量单个矩阵乘以标量的速度来判断每个矩阵库的性能。由于其基于模板的策略,Armadillo将在这方面做得非常好,它将每个乘法分解为大多数编译器可并行化的代码。
但是我建议你需要重新考虑你的测试范围和方法。例如,您忽略了每个BLAS实现。您需要的BLAS函数将是dscalal。供应商为您的特定CPU提供的实现可能会做得很好。
更相关的是,任何合理的向量库都需要能够做更多的事情:矩阵乘法、点积、向量长度、转置等等,这些都没有在您的测试中解决。您的测试精确地解决了两件事:元素赋值,这实际上从来都不是向量库的瓶颈,以及标量/向量乘法,这是每个CPU制造商提供的BLAS 1级功能。
这里讨论了BLAS级别1与编译器发出的代码。
tl:博士;使用Armadillo与BLAS和LAPACK本地库链接到您的平台。
我的测试显示boost数组具有与本机/硬编码c++代码相同的性能。
您需要使用激活的编译器优化来比较它们。那就是:-O3
-DNDEBUG
-DBOOST_UBLAS_NDEBUG
-DBOOST_DISABLE_ASSERTS
-DARMA_NO_DEBUG
…当我测试(em++)时,当您停用其断言,使用-O3
启用3级优化等时,Boost执行速度至少快10倍。任何公平的比较都应该使用这些标志。