ACL2023 | LENS:一种可学习的文本简化评估指标
作者引入了 SIMPEVAL(一种用于评估文本简化模型的新语料库)和 LENS(一种可学习的评估指标,在与人类判断相关的方面优于现有指标)。
什么是 SIMPEVAL?它与现有的文本简化人类评估数据集有何不同?
SIMPEVAL 是一个包含超过 13K 个人类判断的语料库,其中包括来自 26 个系统的 2.8K 个简化文本。它旨在促进 LENS 的训练和评估,LENS 是第一个用于文本简化评估的有监督自动度量。
SIMPEVAL 与现有的文本简化人类评估数据集(例如 Alva-Manchego 等人在 2021 年和 Sulem 等人在 2018 年发布的数据集)不同,因为它涵盖了更广泛的系统设计,包括基于 T5 和其他大型预训练语言模型的最新的最先进的系统。
此外,SIMPEVAL 还包含更复杂的句子,这些句子来自于 2022 年 10 月 22 日之后发布的维基百科,以减少“数据污染”的风险,并作为大型语言模型的更具挑战性的测试基础。
在与人类判断的相关性方面,LENS 与现有指标相比如何?
文中称,实证实验表明,LENS 在 SIMPEVAL 2022 上与人类评分实现了 0.331 的较高相关性,分别是 BERTScore 和 SARI 的相关性得分 0.112 和 0.149 的两倍多。
LENS 还表现出与人类对其他数据集(例如 WIKI-DA 和 NEWSELA-LIKERT)的判断具有更好的相关性。因此,LENS 在与人类判断的相关性方面优于现有指标。
RANK & RATE 框架的工作原理以及它对评估流程有何贡献?
RANK & RATE 是一种人类评估框架,旨在帮助评估者以列表方式比较和评估多个(>20)系统输出。该框架由三个步骤组成:分类生成物、注释系统执行的编辑和对生成物进行评分和排名。在前两个步骤中,评估者验证自动提取的类别和编辑,而不是从头开始标注。
该框架的主要贡献在于提供了一种有效的方法来比较和评估多个系统输出,并且可以帮助评估者更准确地评估系统的性能。此外,该框架还可以用于训练 LENS,这是第一个用于文本简化评估的有监督自动度量。
论文:
LENS : A Learnable Evaluation Metric for Text Simplification
地址:
https://arxiv.org/pdf/2212.09739.pdf
进NLP群—>加入NLP交流群
微信扫码关注该文公众号作者