Redian新闻
>
​ACL 2022 | 面向对话状态追踪任务的回合级公平评测

​ACL 2022 | 面向对话状态追踪任务的回合级公平评测

科技




论文标题:

Towards Fair Evaluation of Dialogue State Tracking by Flexible Incorporation of Turn-level Performances

文章链接:

https://arxiv.org/pdf/2204.03375.pdf

代码链接:

https://github.com/SuvodipDey/FGA




Background
ACL 2022 的一篇文章围绕了 DST 的一个重要指标:联合精度(JGA)展开了讨论,本文指出了该指标(JGA)的苛刻性,很可能低估了 DST 模型的性能。并不适用于所有的测试场景,除了 JGA 外,在这项工作中还讨论了 DST 的其余各种评估度量(SA,AGA)及其缺点。

为了解决现有的问题,作者提出了一种新的评价度量,即灵活目标精度(FGA)。FGA 是 JGA 的一个广义版本。但与 JGA 不同的是,它试图给局部正确的错误预测给予一个惩罚奖励,因为出现这种错误的根本原因很可能来自于更早轮次的错误。通过这样做,FGA 灵活地考虑了累积层面和回合层面预测的性能,并提供了比现有指标更好的洞察力。作者还表明,FGA 是一个更好的鉴别 DST 模型性能的鉴别器。




Discussion on existing DST metrics

本文首先介绍了三个传统 DST 系统评价度量缺陷所在:



“Extract Match” 比较了 ground truth belief state Bt 和 Predicted belief state B0t。“Turn Match” 表示回合级非累积 belief state 预测的正确性。箭头表示错误的传播。

2.1  JGA

(1) JGA(联合精度)的定义:假设对话有 N 轮,存在轮次 t,t 以及 t 前面的轮次对话轮次全部预测正确,而 t 后没有对话或者 t+1 轮次的对话状态预测错误,由于对话状态是累积的,所以 t+1 后所累积的对话状态一般来说很难预测正确,则该段对话的联合精度为:t/N,如图,在这个例子中,对 B0t 的 6 个正确预测中有 2 个,这使得整个对话的 JGA 得分为 33.33%。

(2)从以上结果来看,虽然联合目标精度是评价 DST 的方便指标,但它也有一定的局限性。这个问题的主要来源是真相 Bt 的累积性质。因此,一旦发生了错误的预测,就很难在随后的回合中得到正确的预测。例如,在图 1 中,第 2 轮的预测出现了错误,这影响了以后所有的预测。所以,如果模型错误预测了第一个回合,很可能 JGA 为零。因此,JGA 可以破坏 DST 模型的真正潜力,并提供一个被低估的性能。

此外,JGA 也没有考虑到轮次级别的性能。例如,在图 1 中,轮次 3 和轮次 5 是局部正确的,,因为 Bt 和 没有全部匹配。通常,期望是精确匹配度的上升也将反映在回合级匹配中。但我们观察到,有时精确匹配度的上升会减少回合级匹配度,这主要是由于注释的不一致。例如第二轮和第四轮中,系统都提到了一个一个槽的值,但前者采用了,后者没有采用,这样会让模型陷入困惑。
因此,如果没有注释错误,使用联合目标精度评估 DST 效果很好,唯一的目的是提高评估累积对话状态的预测。否则,就需要包括回合级性能,以获得对 DST 模型的公平评价。
2.2 Slot Accuracy
(1)Slot Accuracy 将每个预测的(域、槽、槽值)三联体分别与地面真实标签进行比较。设 S 是数据集中唯一的域槽对的集合。设 Bt 和 分别为 ground truth 和预测信念状态的集合。然后将第 t 轮的槽精度定义为




P 是 X 中唯一域槽对的集合,Q 是 Y 中唯一域槽对的集合。

基本上,在公式 1 中,|X| 和 |Y| 分别表示假阴性和假阳性的数量。请注意,如果真域槽对的值被错误预测,那么这个错误预测将被计算两次(X 和 Y 一次)。|P∩Q| 有助于纠正这种过度计数。在 MultiWOZ 中,|S| 的值为 30。

(2)插槽精度的价值可能会非常容易引起误导,当 |S|>>|Bt| 时,该指标便会变得很大,而与预测正确与否关系比较小。
2.3 Average Goal accuracy
(1)Average Goal accuracy(平均目标精度是评估 SGD 数据集的一个相对较新的度量指标。设 Nt⊆Bt 是具有非空槽值的正确对话状态的集合。AGA=|Nt∩|/|Nt|,若 Nt 是空集,则不参与计算。例如,上图中第 2 轮的 AGA 是 4/6,第 5 轮的 AGA 是 5/7。
(2)这个度量标准主要有两个限制。首先,AGA 不考虑假阳性,即本来不存在但是多预测出来的槽,忽略假阳性使这个度量对预测的对话状态三联体不敏感;其次,但 AGA 仍然存在第二个主要问题。请注意,即使一个回合是完全错误的,该回合的 AGA 仍然可以很高,因为在之前的回合的正确预测,每个回合的 AGA 预测包括以前轮次对话状态的累积。




Method(Flexible Goal Accuracy)


本文在此章节描述了 FGA 指标的详细算法流程,且作者认为某轮的对话状态预测错误包括两种情况:

(1)本轮的槽值对信息预测错误

(2)该轮的槽值对信息预测正确,但前几轮的槽值对信息预测错误

FGA 与 JGA 的工作方式不同,只适用于第 2 类错误。与 JGA 不同,FGA 不会完全惩罚第 2 类错误。它根据错误轮次(terr)和当前轮次(t)之间的距离分配一个惩罚分数,惩罚与这个距离(t−terr)成反比。主要思想是随着时间的推移忘记错误,以便获得对 DST 模型的公平判断。

FGA 的整体算法流程如下:



算法流程:

Input:对话状态标签,预测的对话状态,对话的轮次

Output:精度结果

算法从第一个对话轮次开始迭代,每一轮下 w 初始值为 1,找到犯错误的轮次,然后开始判断是哪类错误:

(1)找到开始出现预测错误的轮次(第一类错误),若该轮为第 0 轮(最开始的轮次),w 设为 0,terr 标记为 t(轮次数)

(2)若该轮词不为 0,则取出标签以及预测值中该轮次独有的槽值对,即不在上一轮的对话状态且存在于该轮的对话状态中的槽值对。

(a)若预测的该轮槽值对不属于正确的对话状态或者正确的该轮槽值对不属于该轮次预测的对话状态(分别对应判断多预测和少预测的槽位,两个条件都可以判断预测正确的槽位,而值预测错的情况),评判为第一类错误,w 设为 0,terr 标记为 t。

(b)否则判断为第二类错误,计算第一类错误和本轮错误的距离 x=t-terr,利用指数分布,计算 w=1 exp(−λx),作为奖励分数,同时 f=f+w 在迭代完成后,将 f/N 作为最终的分数。

可以看出,错误距离越远,奖励 w 越高,反之,w 越低,而 λ 可以视为奖励分数的严格程度:当 λ=0,则该分数变为了JGA,当 λ 趋于正无穷时,该指标对第二类错误不起作用,只报告第一类错误,即只分析每轮次犯下的错误,不管错误的累积效应。

通过引入变量 λ,将该指标变得可以更好地适应不同的任务,十分巧妙。




Experiment
在本节中,作者报告了 FGA 和其他指标在四种不同的 DST 模型上的性能:trade、Hi-DST、SOM-DST 和 Trippy。作者使用 MultiWOZ2.1数据集),因为 DST 的大多数 SOTA 模型都在这个数据集上实验。



“M1”和“M2”分别表示精确匹配和回合级匹配。“FGAx” 表示使用 λ=x 计算出的 FGA 值。

实验结果表明,Trippy 是 SOTA 的效果。然而,我们可以注意到,Trippy 在回合级匹配中并没有相同的性能增益。它比 SOM-DST 和 Hi-DST 有更少的回合级匹配。这种曲变的行为可能是利用其复杂的特征化来增强 JGA 的副作用。相比之下,Hi-DST 明确地优化了回合级非累积信念状态,从而以牺牲 JGA 为代价实现了更好的回合级精度。

此外在这四种模型中,由于 SOM-DST 具有复杂的选择性覆盖机制,因此它们对这两个目标都表现良好。现在,通过比较表 1 的数量,我们可以推断出 FGA 在考虑精确匹配和回合级匹配的同时,在提供公平的估计方面做得更好。此外,我们还可以注意到,与现有的指标相比,FGA 作为 DST 模型更好的鉴别器。

个人总结:本文从分析一个现象入手,因为做 DST 的都会对 JGA 这种一个轮次错即全错的严苛程度表示置疑,首先作者分析了现有的三个 DST 指标的局限性,进而提出引入灵活的目标精度(FGA)来解决联合精度的问题,算法流程十分清晰,实验表明,FGA 提供了一个相对平衡的 DST 性能估计,以及更好的鉴别性能,对未来的研究也有很大的价值。

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
公告 | CCL 2022 汉语学习者文本纠错评测结果出炉![评测]MSI Modern AM272P 12M 评测如何挖掘用户需求:将产品视作用户完成任务的手段唐山雷霆风暴 行动取得硕果累累平局 | 特稿:公平、公平、还是公平!推荐一部新电影 - Good Luck to you, Leo Grande by Emma Thompson[评测]ASUS 灵耀 Pro AX11000 评测【宏观经济】RCEP推动中国与东盟科研合作—全球贸易动态追踪2022年第36期毒教材顶风再翻印,最大的公平就是不公平?[评测]Phanteks Glacier One 240 & 360 M25 评测如何确定待办事项上任务的优先级 | Linux 中国[评测]ASUS ROG Chakram X 评测[评测]MSI GK50 Low Profile TKL 评测无需微调!微软亚研院:高效加速大规模视觉 Transformer 密集预测任务的方法ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUE10月10日:用秒表看员工速度快不快,用指南针看员工方向对不对[评测]DeepCool AK500 评测[评测]Noctua NH-D12L 评测不该退休的时候退休了[评测]ASUS ProArt Studiobook 16 H7600Z 评测【宏观经济】欧美坚持紧缩,日本维持宽松—全球贸易动态追踪2022年第33期使用 cron 定时任务的小技巧 | Linux 中国[评测]GUNNIR Intel Arc A380 Photon 6G OC 评测走向对抗:大幻觉与大毁灭[评测]ASUS Prime AP201 评测[评测]Asus ProArt PA32UCR 评测NAACL 2022 | TAMT:通过下游任务无关掩码训练搜索可迁移的BERT子网络退休后业余爱好之进展[评测]DeepCool LS720 评测字节在高端妇幼医院跳动:业务的一小步,财务的一大步听钟[评测]Corsair MP600 PRO XT M.2 NVMe 2TB 评测[评测]ADATA XPG Lancer RGB & Lancer DDR5 评测[评测]Cooler Master HAF 700 EVO 评测[评测]Fractal Design Pop Mini Silent 评测
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。