当使用Python 2.7.5与OpenCV (OSX)时,我在一系列图像上运行PCA(颜色是像素,行是帧)。
我如何得到对应于特征向量的特征值?看起来像是c++中PCA对象的一个属性,但是Python中等价的PCACompute()
是一个简单的函数。
省略PCA的关键部分似乎很奇怪。
matmull .cpp确认PCA::Operator()
正在被PCACompute()
使用,但特征值被丢弃。所以我这样做:
# The following mimics PCA::operator() implementation from OpenCV's
# matmul.cpp() which is wrapped by Python cv2.PCACompute(). We can't
# use PCACompute() though as it discards the eigenvalues.
# Scrambled is faster for nVariables >> nObservations. Bitmask is 0 and
# therefore default / redundant, but included to abide by online docs.
covar, mean = cv2.calcCovarMatrix(PCAInput, cv2.cv.CV_COVAR_SCALE |
cv2.cv.CV_COVAR_ROWS |
cv2.cv.CV_COVAR_SCRAMBLED)
eVal, eVec = cv2.eigen(covar, computeEigenvectors=True)[1:]
# Conversion + normalisation required due to 'scrambled' mode
eVec = cv2.gemm(eVec, PCAInput - mean, 1, None, 0)
# apply_along_axis() slices 1D rows, but normalize() returns 4x1 vectors
eVec = numpy.apply_along_axis(lambda n: cv2.normalize(n).flat, 1, eVec)
(简化假设:rows = observation, cols = variables;还有比观测值更多的变量。)
这个非常适合。下面,old_eVec
是cv2.PCACompute()
的结果:
In [101]: eVec
Out[101]:
array([[ 3.69396088e-05, 1.66745325e-05, 4.97117583e-05, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
[ -7.23531536e-06, -3.07411122e-06, -9.58259793e-06, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
[ 1.01496237e-05, 4.60048715e-06, 1.33919606e-05, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
...,
[ -1.42024751e-04, 5.21386198e-05, 3.59923394e-04, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
[ -5.28685812e-05, 8.50139472e-05, -3.13278542e-04, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
[ 2.96546917e-04, 1.23437674e-04, 4.98598461e-04, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00]])
In [102]: old_eVec
Out[102]:
array([[ 3.69395821e-05, 1.66745194e-05, 4.97117981e-05, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
[ -7.23533140e-06, -3.07411415e-06, -9.58260534e-06, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
[ 1.01496662e-05, 4.60050160e-06, 1.33920075e-05, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
...,
[ -1.42029530e-04, 5.21366564e-05, 3.60067672e-04, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
[ -5.29163444e-05, 8.50261567e-05, -3.13150231e-04, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
[ -7.13724992e-04, -8.52700090e-04, 1.57953508e-03, ...,
0.00000000e+00, 0.00000000e+00, 0.00000000e+00]], dtype=float32)
在输出的末尾可以看到精度的某种损失(尽管实际上快速绘制绝对差并没有显示出不精度的模式)。
57%的元素有非零的绝对差。
其中,95%的差异小于2e-16,平均A.D.为5.3e-4 -然而,A.D.可以高达0.059,当你考虑到所有特征向量值都在-0.048到0.045之间时,这是一个很大的数字。
在PCA::Operator()
中有代码转换为最大的ctype;另一方面,old_eVec
是float32与我自己的代码产生float64。值得一提的是,在编译numpy时,我发现了一些与精度相关的错误。
总体而言,精度的损失似乎与低特征值特征向量有关,这再次指向舍入误差等。上面的实现产生的结果类似于pcaccompute(),具有重复的行为。