分类指标解释

2023-08-29 11:38:02

最基本的四个概念

真正例（True Positive，TP）：真实类别为正例，预测类别为正例。
假正例（False Positive，FP）：真实类别为负例，预测类别为正例。
假负例（False Negative，FN）：真实类别为正例，预测类别为负例。
真负例（True Negative，TN）：真实类别为负例，预测类别为负例。

延申的一些概念：
在这里插入图片描述

比较重要的是Accuracy，F1score， Recall, Precision。
在这里插入图片描述

F1分数（F1-Score），又称为平衡F分数（BalancedScore），它被定义为精确率和召回率的调和平均数。除了F1分数之外，F0.5分数和F2分数，在统计学中也得到了大量应用，其中，F2分数中，召回率的权重高于精确率，而F0.5分数中，精确率的权重高于召回率。

multi-class classification的情况

如果是multi-class classification，我有两个选项：

各个类别分别统计TP/FP/FN/TN，分别计算出每个类别的Accuracy，F1score， Recall, Precision，然后对各个类被进行算术平均，最终得到一组 Accuracy，F1score， Recall, Precision，这就叫做宏平均 (Macro-averaging)。
统计TP/FP/FN/TN的时候不区分类别，最终也就只有一组TP/FP/FN/TN，也就只有一组Accuracy，F1score， Recall, Precision，这就叫做微平均 (Micro-averaging)

Note that if all labels are included, “micro”-averaging in a multiclass setting will produce precision, recall and that are all identical to accuracy.

在这里插入图片描述

这里考虑的三个类别（1，2，3）只有一个（1）是存在的，那自然微平均的结果就是跟类别1的结果的一样的。

在这里插入图片描述
定义是这样的：

Binary-class classification的情况

TP/FP/FN/TN，Accuracy，F1score， Recall, Precision指标如果说应用在二分类问题的话，都是很清晰的。
但是，如果大批量的样本，batch wise计算的时候？这个时候，严格的正确的做法是一起统计所有batch的样本，也即是所有的样本的TP/FP/FN/TN，最后再去计算Accuracy，F1score， Recall, Precision。
如果你是批处理的话，对每个批次分别进行计算Accuracy，F1score， Recall, Precision的话，就要对各个批次的结果进行平均，这会导致：

from sklearn import metricsy_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]print(metrics.confusion_matrix(y_true, y_pred))
print(metrics.classification_report(y_true, y_pred))y_pred = [0, 1]
y_true = [0, 1]
print(metrics.confusion_matrix(y_true, y_pred))
print(metrics.classification_report(y_true, y_pred))y_pred = [0, 0]#这种情况对于类别1没法计算precision
y_true = [0, 1]print(metrics.confusion_matrix(y_true, y_pred))
print(metrics.classification_report(y_true, y_pred))#同样的数据拆分成两份，分别计算  precision    recall  f1-score，
#然后算术平均是有问题的，尤其是数据不平衡的时候，如果某个batch里面
#不存在某个类的话，就会出现除零的情况，也是会影响结果的
#所以保险起见，还是全部统计完成TP/FP/FN/TN，最后再计算precision    recall  f1-score

即便不是“除零”的情况，分批次计算+算术平均的结果跟合并计算的结果也不一致！

Multi-label (multi-class) classification

MLMC就是说单个图片有多个标签，如果一般的multi-class classification是独热编码的话，MLMC就是多热编码。如果多热编码必须跟GT一模一样才算是正确的话，这样就太严格了。这样就演变出来了很多的评价指标。

第一，可以把每一个类别都当成一个二分类的问题进行评价，很自然地就可以得到每个类别的Accuracy，F1score， Recall, Precision，然后求算术平均自然就得到了宏平均。
参考这里的英文：

Label based measures evaluate each label separately and then averages over all labels. Therefore,any known measure, used for evaluation of a binary classiﬁer (e.g. accuracy, precision, recall, F 1 , ROC etc.), can be used here. Any of these scores can be computed on individual class labels ﬁrst and then averaged over all classes.

在这里插入图片描述

那微平均是什么呢？，一样的，微平均就是不区分类别：

在这里插入图片描述

注意，这里没有”除以总个数“这样的操作，我的理解就是，把n*k个零和一摊开了一起统计出一个TP/FP/FN/TN，只一次计算Accuracy，F1score， Recall, Precision

It is important to note here that by deﬁnition, macro averaged F 1 would be more affected by the performance of the classes which has fewer examples and in contrast, micro averaged F 1 would be more affected by the performance of the classes which has more examples。

上述方法也叫做基于label，label based的评价指标；还有一种基于样本，Example-based的评价指标。 我理解的就是，对每一个Example，把1*k这个向量当成是一个二分类问题，得到TP/FP/FN/TN，先计算Accuracy，F1score， Recall, Precision，然后再对所有的样本平均，得到最后的Accuracy，F1score， Recall, Precision。
在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 【指标量化】超买超卖——CCI 顺势指标
下一篇 > 【精确率，召回率，F1-score。ROC曲线与AUC指标的介绍】

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

分类指标解释

最基本的四个概念

multi-class classification的情况

Binary-class classification的情况

Multi-label (multi-class) classification

相关文章