如何训练你的准确率？

2022-06-08 13:06

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

最近 arXiv 上的一篇论文《EXACT: How to Train Your Accuracy》[1] 引起了笔者的兴趣，顾名思义这是介绍如何直接以准确率为训练目标来训练模型的。正好笔者之前也对此有过一些分析，如《函数光滑化杂谈：不可导函数的可导逼近》[2]、《再谈类别不平衡问题：调节权重与魔改 Loss 的对比联系》等，所以带着之前的研究经验很快完成了论文的阅读，写下了这篇总结，并附上了最近关于这个主题的一些新思考。

失实的例子

论文开头指出，我们平时用的分类损失函数是交叉熵或者像 SVM 中的 Hinge Loss，这两个损失均不能很好地拟合最终的评价指标准确率。为了说明这一点，论文举了一个很简单的例子：假设数据只有三个点，-1 和 1 分别代表负类和正类，待拟合模型是 f(x)=x-b，b 是参数，我们希望通过来预测类别。如果用“sigmoid + 交叉熵”，那么损失函数就是代表一对标签数据；如果用 Hinge Loss，则是。

由于只是一个一维模型，我们可以直接网格搜索出它的最优解，可以发现如果用“sigmoid + 交叉熵”的话，损失函数的最小值在 b=0.7 取到，而如果是 Hinge Loss，那么。然而，如果要通过完全分类正确，那么才行，因此这说明了交叉熵或 Hinge Loss 与最后评测指标准确率的不一致性。

看上去是一个很简明漂亮的例子，但笔者认为它是不符合事实的。其中，最大的问题是模型设置温度参数，即一般出现的模型是而不是，刻意去掉温度参数来构造不符合事实的反例是没有说服力的，事实上补上可调的温度参数后，这两个损失都可以学到正确的答案。更不公平的是，后面作者在提出自己的方案 EXACT 时，是自带温度参数的，并且温度参数是关键一环，换句话说，在这个例子中，EXACT 比其他两个损失好，纯粹是因为 EXACT 有温度参数。

新瓶装旧酒

然后我们来看论文所提出的方案——EXACT（EXpected ACcuracy opTimization）。从事后来看，EXACT 很是莫名其妙，因为作者是直接不加任何解释地从重参数的角度重新定义了一个条件概率分布：

其中是一个向量网络，是一个标量网络，跟维度相同，每个分量是独立同分布地从采样得到。关于用重参数来定义概率分布的做法，我们在上一篇文章《从重参数的角度看离散概率分布的构建》已经讨论过，这里不重复。

紧接着，有了这个新的，作者直接以

作为损失函数，全文的理论框架基本上到此结束。

由此，我们可以总结 EXACT 的莫名其妙之处了。在《从重参数的角度看离散概率分布的构建》我们知道，从重参数角度来看，Softmax 对应的噪声分布是 Gumbel 分布，而 EXACT 换成了正态分布，那么好在哪？为什么会好？这些全无解释。

此外，式 (2) 的相反数是准确率的光滑近似，这本已“广为人知”，但同时也有一个广为人知的结论是在 Softmax 情况下直接优化式 (2) 的效果通常都是不如优化交叉熵的，现在只是换了一个“新瓶”（新概率分布的构建方法）装“旧酒”（同样的准确率光滑近似），真的就能有提升吗？

实验难复现

原论文给出了非常惊人的实验结果，显示 EXACT 几乎总是 SOTA：

然而，笔者根据自己的理解尝试实现了 EXACT，并在 NLP 任务上测试，结果显示 EXACT 完全不能达到“Softmax+交叉熵”的水平。此外，原论文还提到优化会比 (2) 更好，但笔者的结果是该变体连 (2) 都比不上。总的来说，笔者的测试结论与原论文是大相径庭的。

由于原论文还没有开源代码，因此笔者还不能对论文实验的可靠性做进一步的判断。但从笔者的理论理解和初步的实验结果来看，直接优化式 (2) 是很不可能达到优化交叉熵的效果的，仅仅修改构建概率分布的方式，应该很难形成实质的提升。如果读者有新的实验结果，欢迎进一步交流分享。

一个新视角

从数值上来比较，式 (2) 确实比交叉熵更贴合准确率。但为什么优化交叉熵往往能获得更好的的准确率？笔者原来也百思不得其解，在《再谈类别不平衡问题：调节权重与魔改 Loss 的对比联系》中，笔者设置将它视为“公理”来使用，实属无奈。

直到有一天，笔者突然意识到了一个关系：随着训练，多数会慢慢接近于 1，于是可以用近似得到：

于是我们就能解释为什么优化交叉熵也能获得很好的准确率了，因为从上式我们可以发现，交叉熵优化到中后期跟式 (2) 基本是等价的，也就是同样在优化准确率的光滑近似！

那交叉熵相比式 (2) 的好处在哪呢？差别就在于当时，与的差距。当时，即目标类的概率很小，意味着分类可能很不准确，这时候给出的是一个会趋于无穷大的结果，但最多就只能给出 1。这样一比较，我们就发现交叉熵的对错误分类的样本的惩罚更大，因此它会更倾向于修正分类错误的样本，同时最终分类结果又跟直接优化准确率的光滑近似相近。

由此，我们可以得到一个优秀的损失函数的新视角：

首先寻找评测指标的一个光滑近似，最好能表达成每个样本的期望形式，然后将错误方向的误差逐渐拉到无穷大（保证模型能更关注错误样本），但同时在正确方向保证与原始形式是一阶近似。