为什么F度量是调和平均值,而不是精确度和召回率度量的算术平均值? [英] Why is the F-Measure a harmonic mean and not an arithmetic mean of the Precision and Recall measures?
本文介绍了为什么F度量是调和平均值,而不是精确度和召回率度量的算术平均值?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
当我们同时考虑精度和召回率时,我们取这两个度量的调和平均值,而不是简单的算术平均值。
取调和平均值而不是简单平均值背后的直观原因是什么?
推荐答案
这里我们已经有了一些详细的答案,但我认为更多关于它的信息会对一些想要深入研究(特别是为什么要研究F度量)的人有所帮助。
根据测量理论,综合测量应满足以下6个定义:
- 连通性(两对可排序)和传递性(如果e1>;=e2且e2>;=e3,则e1>;=e3)
- 独立性:两个组件独立贡献其效果。
- 汤姆森条件:假设在恒定的调用(精度)下,我们发现两个精确值(调用)的有效性存在差异,则这种差异不能通过更改常量值来消除或反转。
- 受限可解性。
- 每个组件都是必不可少的:一个常量的变化和另一个常量的变化会产生不同的效果。
- 每个组件的阿基米德属性。它只是确保组件上的间隔具有可比性。
现在我们取F度量的一般公式:
我们可以通过设置beta来更多地强调召回或精度,因为beta的定义如下:
如果我们回忆起比精度更重要的权重(所有相关的都被选中),我们可以将beta设置为2,我们得到F2度量。如果我们进行相反的操作,并且权重精度高于recall(尽可能多的选定元素是相关的,例如,在一些语法纠错场景中,例如CoNLL),我们只需将beta设置为0.5,并获得F0.5度量。显然,我们可以将beta设置为1,以获得最常用的F1度量(精度和召回率的调和平均值)。
我想在某种程度上我已经回答了为什么我们不使用算术平均值。
让我们看看调和平均值的3D曲线图。我们可以看到,调和平均值对最低值很敏感,特别是当至少有一个为0时,调和平均值为0,这不适用于简单的算术平均值。
有关此主题的更多可视化信息,请参阅本文:F1 score explained。
引用:
- https://en.wikipedia.org/wiki/F1_score
- The truth of the F-measure
- Information retrival
- File:Harmonic mean 3D plot from 0 to 100.png
这篇关于为什么F度量是调和平均值,而不是精确度和召回率度量的算术平均值?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文