为什么F度量是调和平均值,而不是精确度和召回率度量的算术平均值? [英] Why is the F-Measure a harmonic mean and not an arithmetic mean of the Precision and Recall measures?

查看:11
本文介绍了为什么F度量是调和平均值,而不是精确度和召回率度量的算术平均值?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

当我们同时考虑精度和召回率时,我们取这两个度量的调和平均值,而不是简单的算术平均值。

取调和平均值而不是简单平均值背后的直观原因是什么?

推荐答案

这里我们已经有了一些详细的答案,但我认为更多关于它的信息会对一些想要深入研究(特别是为什么要研究F度量)的人有所帮助。

根据测量理论,综合测量应满足以下6个定义:

  1. 连通性(两对可排序)和传递性(如果e1>;=e2且e2>;=e3,则e1>;=e3)
  2. 独立性:两个组件独立贡献其效果。
  3. 汤姆森条件:假设在恒定的调用(精度)下,我们发现两个精确值(调用)的有效性存在差异,则这种差异不能通过更改常量值来消除或反转。
  4. 受限可解性。
  5. 每个组件都是必不可少的:一个常量的变化和另一个常量的变化会产生不同的效果。
  6. 每个组件的阿基米德属性。它只是确保组件上的间隔具有可比性。
然后我们可以derive and get有效性的函数:

通常我们不使用有效性,而是使用简单得多的F分数

because F is just 1 - E

现在我们取F度量的一般公式:

我们可以通过设置beta来更多地强调召回或精度,因为beta的定义如下:

如果我们回忆起比精度更重要的权重(所有相关的都被选中),我们可以将beta设置为2,我们得到F2度量。如果我们进行相反的操作,并且权重精度高于recall(尽可能多的选定元素是相关的,例如,在一些语法纠错场景中,例如CoNLL),我们只需将beta设置为0.5,并获得F0.5度量。显然,我们可以将beta设置为1,以获得最常用的F1度量(精度和召回率的调和平均值)。

我想在某种程度上我已经回答了为什么我们不使用算术平均值。

让我们看看调和平均值的3D曲线图。我们可以看到,调和平均值对最低值很敏感,特别是当至少有一个为0时,调和平均值为0,这不适用于简单的算术平均值。

有关此主题的更多可视化信息,请参阅本文:F1 score explained

引用:

  1. https://en.wikipedia.org/wiki/F1_score
  2. The truth of the F-measure
  3. Information retrival
  4. File:Harmonic mean 3D plot from 0 to 100.png

这篇关于为什么F度量是调和平均值,而不是精确度和召回率度量的算术平均值?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆