二分类任务评价指标(上)
每天给你送来NLP技术干货!
在对比不同模型时,我们需要在测试集上用评价指标去对比模型的泛化能力。
当然不同的评价指标会有不同的结果,模型的“好”与“差”是相对的。可能在某个指标下,模型A的效果优于模型B;但在另一个指标下,模型B的效果却优于模型A。
我们需要全面了解一个任务的评价指标体系,然后根据具体的业务目标/任务需求去选择相应的评价指标,继而选出符合业务目标/任务需求的好模型。
2. 二分类任务评价指标之精度、错误率
2.1 精度、错误率
在分类任务中,acc(精度、准确率)、error_rate(错误率)是最常用的性能评价指标。
2.1.1 acc
具体地,acc 的定义如下:
其中、分别为样本的真实类别与模型对其的预测类别,为总样本量。即acc是分类正确的样本数占总样本数的比例。
2.2.2 error_rate
error_rate(错误率)显然和精度是一对互补量,即有:
具体地,error_rate 的定义如下:
即分类错误的样本数占总样本数的比例。
2.2 二分类任务
将样本归类为两个互斥类别的其中一个的分类任务即为二分类任务。二分类任务非常常见,比如工业生产中机器是否发生故障、信息检索/web搜索中信息是否是用户感兴趣的、接到的电话是否为诈骗电话、接收的邮件是否为垃圾邮件、用户对于商品/新闻的评论所体现出的情感是正面的还是负面的、图像分类中猫狗二分类、核酸检测中样本是阳还是阴...
2.3 混淆矩阵
在二分类任务中南,我们可以根据样本的真实类别和分类模型预测的类别组合将本划分为以下四类:
TP(True Positive,真正例):即样本真实类别为正例,预测类别为正例。
FP(False Positive,假正例):即样本真实类别为负例,预测类别为正例。
TN(True Negative,真负例):即样本真实类别为负例,预测类别为负例。
FN(False Negative,假负例):即样本真实类别为正例,预测类别为负例。
结合这四类样本我们可以构建如下混淆矩阵(Confusion Matrix):
真实类别 | 预测类别 | |
正例 | 负例 | |
正例 | TP(真正例) | FN(假负例) |
负例 | FP(假正例) | TN(真负例) |
2.4 二分类任务中的精度、错误率
在二分类任务中,有了如上混淆矩阵,那么第2.1节中的acc、error_rate就可以如下方式计算:
其中 。
微信扫码关注该文公众号作者