分类中错误率的定义以及为什么一些研究人员使用错误率而不是准确性



分类中错误率的确切定义是什么? 为什么 一些研究人员使用错误率而不是准确性来报告他们的结果? 我正在尝试将文本分类的结果与文献中的其他方法进行比较,但他们使用错误率而不是准确性,我找不到确切的定义/方程来查找我的方法的错误率。

对于分类,您的输出是离散的(就像您将项目放入存储桶一样(,因此准确性有一个非常简单的定义:

准确度 =(# 分类正确(/(# 分类总计(

错误率同样简单:

错误率 = 1 -准确度 = 1 - (# 分类正确(/(# 分类总计(

= (# 分类不正确(/(# 分类总计(

请注意,对于具有连续输出的任务,事情要复杂得多。如果我不是将项目放入桶中,而是要求模型将项目放在数字行上,那么准确性不再是"正确"和"错误">的问题,而是我的模型与正确有多接近的问题。这可能是平均接近度、中位数接近度等。还有更复杂的度量,其主要区别在于它们随着距离的增加而加重的重量。也许偏离一点点比偏离很多要糟糕得多,因此均方根误差测量是合适的。另一方面,无论是偏离一点还是偏离很多,偏差超过一点点可能是可怕的,所以对数误差测量会更好。


回答您问题的最后一部分:在离散情况下,为什么要选择准确性与误差?光学是一回事:">99%准确">发送的心理信息与"错误率为1%">不同。此外,准确度从 99% 提高到 99.9% 会使准确度提高 1%,但误差从 1% 降低到 .1% 是误差降低 90%,即使两者表示相同的现实世界变化。

否则,可能是个人喜好或写作风格。

编辑:您可能也对统计堆栈交换上的这篇文章感兴趣

相关内容

最新更新