sklearn.mixture.dpgmm:意外结果



我从dpgmm获得的结果不是我的期望。例如:

>>> import sklearn.mixture
>>> sklearn.__version__
'0.12-git'
>>> data = [[1.1],[0.9],[1.0],[1.2],[1.0], [6.0],[6.1],[6.1]]
>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1)
>>> m.fit(data)
DPGMM(alpha=1, covariance_type='diag', init_params='wmc', min_covar=None,
   n_components=5, n_iter=1000, params='wmc',
   random_state=<mtrand.RandomState object at 0x108a3f168>, thresh=0.01,
   verbose=False)
>>> m.converged_
True
>>> m.weights_
array([ 0.2,  0.2,  0.2,  0.2,  0.2])
>>> m.means_
array([[ 0.62019109],
       [ 1.16867356],
       [ 0.55713292],
       [ 0.36860511],
       [ 0.17886128]])

我希望结果与香草GMM更相似。也就是说,两个高斯人(值1和6左右),重量不均匀(例如[0.625,0.375])。我希望"未使用的"高斯人的权重接近零。

我是否错误地使用了模型?

我也尝试更改alpha而没有任何运气。

与Sklearn的0.14.1版本没有很大的不同。我将使用以下代码来打印DPGMM模型:

def pprint(model, data):
    idx = np.unique(model.predict(data))
    m_w_cov = [model.means_, model.weights_, model._get_covars()]
    flattened  = map(lambda x: np.array(x).flatten(), m_w_cov)
    filtered = map(lambda x: x[idx], flattened)
    print np.array(filtered)

此函数过滤了redundand(空)组件,即未在预测和打印均值,权重和协变量中使用。

如果从OP问题中进行了几次尝试,则可以找到两个不同的结果:

>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1).fit(data)
>>> m.predict(data)
array([0, 0, 0, 0, 0, 1, 1, 1])
>>> pprint(m, data)
[[  0.62019109   1.16867356]
 [  0.10658447   0.19810279]
 [  1.08287064  12.43049771]]

>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1).fit(data)
>>> m.predict(data)
array([1, 1, 1, 0, 1, 0, 0, 0])
>>> pprint(m, data)
[[  1.24122696   0.64252404]
 [  0.17157736   0.17416976]
 [ 11.51813929   1.07829109]]

然后,人们可以猜测出乎意料的结果是在于以下事实:某些中间结果(在我们的情况下为1.2)在类之间迁移,方法无法推断正确的模型参数。原因之一是聚类参数,alpha对于我们的群集来说太大了,每个簇只有3个元素,我们可以通过降低此参数来更好地尝试,0.1将给出更稳定的结果:

>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=.1).fit(data)
>>> m.predict(data)
array([1, 1, 1, 1, 1, 0, 0, 0])

但根本原因在于DPGMM方法的结实性质,对于小簇而言,方法无法推断模型结构。情况变得更好,如果我们扩展观察值4次,方法的行为会更加按预期:

>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1).fit(data*4)
>>> pprint(m, data)
[[ 0.90400296  5.46990901]
 [ 0.11166431  0.24956023]
 [ 1.02250372  1.31278926]]

总而言之,请谨慎使用拟合参数,并意识到某些ML方法在小或偏斜的数据集中无法正常工作。

相关内容

  • 没有找到相关文章

最新更新