微观指标vs宏观指标



为了测试我的多标签分类模型的结果,我测量了Precision, Recall和F1分数。我想比较两种不同的结果,微观和宏观。我有一个数据集,只有几行,但我的标签计数大约是1700。为什么宏这么低,即使我在微上得到了很高的结果,当它是一个多类的时候,哪一个会更有用?

Accuracy: 0.743999 
Micro Precision: 0.743999
Macro Precision: 0.256570 
Micro Recall: 0.743999
Macro Recall: 0.264402 
Micro F1 score: 0.743999
Macro F1 score: 0.250033 
Cohens kappa: 0.739876

Micro-Average

微平均精度和召回分数是根据模型的单个类别的真阳性(TPs)、真阴性(TNs)、假阳性(FPs)和假阴性(FNs)计算的。

Macro-Average

宏观平均精度和召回分数作为单个类别的精度和召回分数的算术平均值计算。宏观平均f1分数计算为各班f1分数的算术平均值。

何时使用微观平均和宏观平均评分?

使用
  • micro-averaging在需要平均权衡每个实例或预测时进行评分。

  • 使用
  • macro-averaging当所有类需要被平等对待时得分,以评估分类器关于最频繁的类标签的整体性能。

  • 使用加权宏平均在类别不平衡的情况下得分(不同的实例与不同的类别标签相关)。加权宏观平均在计算平均值时,通过将每个类标签的分数与真实实例的数量加权来计算。

  • 当您想知道系统在数据集上的总体执行情况时,可以使用宏观平均方法。你不应该根据这个平均值做出任何具体的决定。另一方面,当你的数据集大小变化时,微平均可以是一个有用的衡量标准。

Micro-Average,多类分类宏平均精度分数

对于多类分类问题,微平均精度分数可以定义为所有类别的真阳性总和除以所有正预测。阳性预测是所有真阳性和假阳性的总和。

Micro-Average,多类分类宏观平均召回分数

对于多类分类问题,微平均回忆分数可以定义为所有类别的真阳性之和除以实际阳性(而不是预测阳性)。

引用:

  • 精密度、召回率和F-Score的微观和宏观平均值
  • 宏观VS微观VS加权VS样本F1得分
  • 在多类分类设置中的微观平均与宏观平均性能

最新更新