Redian新闻
>
ACL2023 | LENS:一种可学习的文本简化评估指标

ACL2023 | LENS:一种可学习的文本简化评估指标

科技

作者引入了 SIMPEVAL(一种用于评估文本简化模型的新语料库)和 LENS(一种可学习的评估指标,在与人类判断相关的方面优于现有指标)。

什么是 SIMPEVAL?它与现有的文本简化人类评估数据集有何不同?

SIMPEVAL 是一个包含超过 13K 个人类判断的语料库,其中包括来自 26 个系统的 2.8K 个简化文本。它旨在促进 LENS 的训练和评估,LENS 是第一个用于文本简化评估的有监督自动度量。

SIMPEVAL 与现有的文本简化人类评估数据集(例如 Alva-Manchego 等人在 2021 年和 Sulem 等人在 2018 年发布的数据集)不同,因为它涵盖了更广泛的系统设计,包括基于 T5 和其他大型预训练语言模型的最新的最先进的系统。

此外,SIMPEVAL 还包含更复杂的句子,这些句子来自于 2022 年 10 月 22 日之后发布的维基百科,以减少“数据污染”的风险,并作为大型语言模型的更具挑战性的测试基础。

在与人类判断的相关性方面,LENS 与现有指标相比如何?

文中称,实证实验表明,LENS 在 SIMPEVAL 2022 上与人类评分实现了 0.331 的较高相关性,分别是 BERTScore 和 SARI 的相关性得分 0.112 和 0.149 的两倍多。

LENS 还表现出与人类对其他数据集(例如 WIKI-DA 和 NEWSELA-LIKERT)的判断具有更好的相关性。因此,LENS 在与人类判断的相关性方面优于现有指标。

RANK & RATE 框架的工作原理以及它对评估流程有何贡献?

RANK & RATE 是一种人类评估框架,旨在帮助评估者以列表方式比较和评估多个(>20)系统输出。该框架由三个步骤组成:分类生成物、注释系统执行的编辑和对生成物进行评分和排名。在前两个步骤中,评估者验证自动提取的类别和编辑,而不是从头开始标注。

该框架的主要贡献在于提供了一种有效的方法来比较和评估多个系统输出,并且可以帮助评估者更准确地评估系统的性能。此外,该框架还可以用于训练 LENS,这是第一个用于文本简化评估的有监督自动度量。


欢迎订阅知识星球,每天推送最新论文速读

论文:
LENS : A Learnable Evaluation Metric for Text Simplification
地址:
https://arxiv.org/pdf/2212.09739.pdf


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
追剧 《听说你喜欢我》炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!上海户籍简化办韩国五年新鲜出炉!这些城市户籍可简化申请!VALSE 2023 | 下一代深度学习的思考与若干问题——焦李成专家清华ACL2023 | WebCPM:首个联网支持中文问答开源模型Hélène Binet:光的哲学家可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了我把GPT 的学习轨迹可视化了!竟和人类十分类似 |ACL2023自动驾驶竞逐城市NOA,轻舟智航这篇ICML2023论文为「感知模块评估」指出了新方向后院鱼池轶事ICLR 2023 | 大模型上下文学习的无限扩展方法:kNN PromptingICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别ACL2023 | 赔了?引入GPT-3大模型到智能客服,竟要赔钱?首个二值量化评测基准来了,北航/NTU/ETH联合提出,论文登ICML 2023Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现ACL2023 | 中科院 针对NL2Code任务,调研了27个大模型,并指出5个重要挑战柳士同诗稿做好投资者陪伴!德邦基金雷涛:从产业边际变化评估投资机会无需存款证明,机票低至600块!日本简化签证超全解析来了不再逐个评估?加拿大移民局计划简化外国工人工签申请流程!“闺蜜恋爱后,我天天盼她分手”:一种可怕的占有欲,正在出现揭秘Transformer基于上下文学习的能力:看它如何学到正确的线性模型?2023年公共营养师待遇堪比公务员,还能领2000元人才补贴!初中可报,0基础可学!给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术ACS SENSORS:线粒体DNA G-四聚体有望成为不明原因不育患者精子病因学检测与靶向治疗的新指标注意!8月7日起泰国官宣简化旅游签,网友:简化个寂寞!泰旅协会提议免除中国游客签证费用!Sigma 40 mm 1.4 G art lens两首合唱:《赤伶》&《是否》冠军 | ACL2023 WASSA Workshop“交互式情感、同理心和个性识别”评测赛题方案 - 哈工大SCIRACL2023 | 面向信息检索的结构感知语言模型训练方法退休生活杂记:晨景、洗牙保健、跑20英里HAUSER: 针对明喻改写任务的全面自动化评估​ACL 2023 | ProPETL:一种高效的Parameter-Efficient迁移学习方法深度解析2023中高考英语试卷,看懂小学英语学习的重点地方政府债务风险评估指标及说明!ICCV 2023 | MRN:一种多路复用路由网络的增量多语言文本识别方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。