ACL 2022 | 面向对话状态追踪任务的回合级公平评测

科技

2022-08-21 11:08

论文标题：

Towards Fair Evaluation of Dialogue State Tracking by Flexible Incorporation of Turn-level Performances

文章链接：

https://arxiv.org/pdf/2204.03375.pdf

代码链接：

https://github.com/SuvodipDey/FGA

Background

ACL 2022 的一篇文章围绕了 DST 的一个重要指标：联合精度（JGA）展开了讨论，本文指出了该指标（JGA）的苛刻性，很可能低估了 DST 模型的性能。并不适用于所有的测试场景，除了 JGA 外，在这项工作中还讨论了 DST 的其余各种评估度量（SA，AGA）及其缺点。

为了解决现有的问题，作者提出了一种新的评价度量，即灵活目标精度（FGA）。FGA 是 JGA 的一个广义版本。但与 JGA 不同的是，它试图给局部正确的错误预测给予一个惩罚奖励，因为出现这种错误的根本原因很可能来自于更早轮次的错误。通过这样做，FGA 灵活地考虑了累积层面和回合层面预测的性能，并提供了比现有指标更好的洞察力。作者还表明，FGA 是一个更好的鉴别 DST 模型性能的鉴别器。

Discussion on existing DST metrics

本文首先介绍了三个传统 DST 系统评价度量缺陷所在：

“Extract Match” 比较了 ground truth belief state Bt 和 Predicted belief state B0t。“Turn Match” 表示回合级非累积 belief state 预测的正确性。箭头表示错误的传播。

2.1 JGA

（1） JGA（联合精度）的定义：假设对话有 N 轮，存在轮次 t，t 以及 t 前面的轮次对话轮次全部预测正确，而 t 后没有对话或者 t+1 轮次的对话状态预测错误，由于对话状态是累积的，所以 t+1 后所累积的对话状态一般来说很难预测正确，则该段对话的联合精度为：t/N，如图，在这个例子中，对 B0t 的 6 个正确预测中有 2 个，这使得整个对话的 JGA 得分为 33.33%。

（2）从以上结果来看，虽然联合目标精度是评价 DST 的方便指标，但它也有一定的局限性。这个问题的主要来源是真相 Bt 的累积性质。因此，一旦发生了错误的预测，就很难在随后的回合中得到正确的预测。例如，在图 1 中，第 2 轮的预测出现了错误，这影响了以后所有的预测。所以，如果模型错误预测了第一个回合，很可能 JGA 为零。因此，JGA 可以破坏 DST 模型的真正潜力，并提供一个被低估的性能。

此外，JGA 也没有考虑到轮次级别的性能。例如，在图 1 中，轮次 3 和轮次 5 是局部正确的，，因为 Bt 和没有全部匹配。通常，期望是精确匹配度的上升也将反映在回合级匹配中。但我们观察到，有时精确匹配度的上升会减少回合级匹配度，这主要是由于注释的不一致。例如第二轮和第四轮中，系统都提到了一个一个槽的值，但前者采用了，后者没有采用，这样会让模型陷入困惑。

因此，如果没有注释错误，使用联合目标精度评估 DST 效果很好，唯一的目的是提高评估累积对话状态的预测。否则，就需要包括回合级性能，以获得对 DST 模型的公平评价。

2.2 Slot Accuracy

（1）Slot Accuracy 将每个预测的（域、槽、槽值）三联体分别与地面真实标签进行比较。设 S 是数据集中唯一的域槽对的集合。设 Bt 和分别为 ground truth 和预测信念状态的集合。然后将第 t 轮的槽精度定义为

P 是 X 中唯一域槽对的集合，Q 是 Y 中唯一域槽对的集合。

基本上，在公式 1 中，|X| 和 |Y| 分别表示假阴性和假阳性的数量。请注意，如果真域槽对的值被错误预测，那么这个错误预测将被计算两次（X 和 Y 一次）。|P∩Q| 有助于纠正这种过度计数。在 MultiWOZ 中，|S| 的值为 30。

（2）插槽精度的价值可能会非常容易引起误导，当 |S|>>|Bt| 时，该指标便会变得很大，而与预测正确与否关系比较小。

2.3 Average Goal accuracy

（1）Average Goal accuracy（平均目标精度是评估 SGD 数据集的一个相对较新的度量指标。设 Nt⊆Bt 是具有非空槽值的正确对话状态的集合。AGA=|Nt∩|/|Nt|，若 Nt 是空集，则不参与计算。例如，上图中第 2 轮的 AGA 是 4/6，第 5 轮的 AGA 是 5/7。

（2）这个度量标准主要有两个限制。首先，AGA 不考虑假阳性，即本来不存在但是多预测出来的槽，忽略假阳性使这个度量对预测的对话状态三联体不敏感；其次，但 AGA 仍然存在第二个主要问题。请注意，即使一个回合是完全错误的，该回合的 AGA 仍然可以很高，因为在之前的回合的正确预测，每个回合的 AGA 预测包括以前轮次对话状态的累积。

Method（Flexible Goal Accuracy）

本文在此章节描述了 FGA 指标的详细算法流程，且作者认为某轮的对话状态预测错误包括两种情况：

（1）本轮的槽值对信息预测错误

（2）该轮的槽值对信息预测正确，但前几轮的槽值对信息预测错误

FGA 与 JGA 的工作方式不同，只适用于第 2 类错误。与 JGA 不同，FGA 不会完全惩罚第 2 类错误。它根据错误轮次（terr）和当前轮次（t）之间的距离分配一个惩罚分数，惩罚与这个距离（t−terr）成反比。主要思想是随着时间的推移忘记错误，以便获得对 DST 模型的公平判断。

FGA 的整体算法流程如下：

算法流程：

Input：对话状态标签，预测的对话状态，对话的轮次

Output：精度结果

算法从第一个对话轮次开始迭代，每一轮下 w 初始值为 1，找到犯错误的轮次，然后开始判断是哪类错误：

（1）找到开始出现预测错误的轮次（第一类错误），若该轮为第 0 轮（最开始的轮次），w 设为 0，terr 标记为 t（轮次数）

（2）若该轮词不为 0，则取出标签以及预测值中该轮次独有的槽值对，即不在上一轮的对话状态且存在于该轮的对话状态中的槽值对。

（a）若预测的该轮槽值对不属于正确的对话状态或者正确的该轮槽值对不属于该轮次预测的对话状态（分别对应判断多预测和少预测的槽位，两个条件都可以判断预测正确的槽位，而值预测错的情况），评判为第一类错误，w 设为 0，terr 标记为 t。

（b）否则判断为第二类错误，计算第一类错误和本轮错误的距离 x=t-terr，利用指数分布，计算 w=1 − exp(−λx)，作为奖励分数，同时 f=f+w 在迭代完成后，将 f/N 作为最终的分数。

可以看出，错误距离越远，奖励 w 越高，反之，w 越低，而 λ 可以视为奖励分数的严格程度：当 λ=0，则该分数变为了JGA，当 λ 趋于正无穷时，该指标对第二类错误不起作用，只报告第一类错误，即只分析每轮次犯下的错误，不管错误的累积效应。

通过引入变量 λ，将该指标变得可以更好地适应不同的任务，十分巧妙。

Experiment

在本节中，作者报告了 FGA 和其他指标在四种不同的 DST 模型上的性能：trade、Hi-DST、SOM-DST 和 Trippy。作者使用 MultiWOZ2.1数据集），因为 DST 的大多数 SOTA 模型都在这个数据集上实验。

“M1”和“M2”分别表示精确匹配和回合级匹配。“FGAx” 表示使用 λ=x 计算出的 FGA 值。

实验结果表明，Trippy 是 SOTA 的效果。然而，我们可以注意到，Trippy 在回合级匹配中并没有相同的性能增益。它比 SOM-DST 和 Hi-DST 有更少的回合级匹配。这种曲变的行为可能是利用其复杂的特征化来增强 JGA 的副作用。相比之下，Hi-DST 明确地优化了回合级非累积信念状态，从而以牺牲 JGA 为代价实现了更好的回合级精度。

此外在这四种模型中，由于 SOM-DST 具有复杂的选择性覆盖机制，因此它们对这两个目标都表现良好。现在，通过比较表 1 的数量，我们可以推断出 FGA 在考虑精确匹配和回合级匹配的同时，在提供公平的估计方面做得更好。此外，我们还可以注意到，与现有的指标相比，FGA 作为 DST 模型更好的鉴别器。

个人总结：本文从分析一个现象入手，因为做 DST 的都会对 JGA 这种一个轮次错即全错的严苛程度表示置疑，首先作者分析了现有的三个 DST 指标的局限性，进而提出引入灵活的目标精度（FGA）来解决联合精度的问题，算法流程十分清晰，实验表明，FGA 提供了一个相对平衡的 DST 性能估计，以及更好的鉴别性能，对未来的研究也有很大的价值。

更多阅读