公告 | CCL 2022 汉语学习者文本纠错评测结果出炉！

2022-10-19 12:10

每天给你送来NLP技术干货！

第二十一届中国计算语言学大会（CCL 2022）开幕在即，其中的汉语学习者文本纠错（CLTC）评测任务也已进入收官阶段。本次评测共吸引了140多支队伍报名参赛，各队伍同场竞技，取得了令人赞叹的成绩！

本次评测旨在推动汉语学习者文本纠错任务的发展，由北京语言大学、清华大学、东北大学、苏州大学、阿里巴巴达摩院联合举办。本次评测整合了已有文本纠错任务和数据，并公开了一批新数据，共设置有五个赛道，覆盖了拼写检查、语法纠错、质量评估三个任务。

评测回顾

近年来，学界关于汉语学习者文本纠错已展开多方面、多角度的研究，如拼写检查（Chinese Spelling Check, CSC）、语法纠错（Grammatical Error Correction, GEC）、语法错误检测（Grammatical Error Diagnosis, GED）等，也已发布有一些相关的评测任务。

延续此前研究，我们在 CCL 2022 会议上举办了本次评测。本次评测具有以下几点特色：

首先，将语法纠错任务相关资源整合、汇聚于赛道二、三、四。其中，赛道二要求对留学生在汉语水平考试（HSK）作文中出现的错误进行检测和纠正，并首次公开了历年 CGED 评测数据用于训练和开发。赛道三关注语法纠错中的多维度问题，即从最小改动（Minimal Edit）和流利提升（Fluency Edit）两个方面给出多种句子修改方案，使用 YACLC 数据集用于开发和测试。赛道四则关注文本纠错的多来源问题，考虑不同来源的文本中可能蕴含的不同类型的语法错误，并且使用 MuCGEC 数据集用于开发和测试。

其次，为进一步推进中文拼写检查研究，本次测评基于 YACLC 数据集构建并公开了 YACLC-CSC 数据集，并作为赛道一的开发和测试数据。据我们所知，该数据集为首个简体中文拼写检查数据集。

最后，本次评测扩展了文本纠错任务，首次将质量评估（Quality Estimation, QE）纳入评测任务。在使用不同语法纠错方法，或基于柱搜索（Beam Search）获得多种修改方案后，质量评估任务要求评估不同修改结果的质量。该任务可以用于模型集成或其他情况下的结果重排序（Re-Ranking），可以在不改变模型的情况下显著提升修改效果。然而目前该任务所受关注较少，评测组织方倡议学界对这一任务加以重视，多加研究。

参与情况

本次评测自6月份发布数据集，7月份公开评测提交入口，经过一个多月的激烈竞争，于8月25日关闭提交。评测期间，各赛道共有140多支队伍参赛，报名参赛的队伍包括清华大学、北京大学、中国科学院等高校和科研院所，以及好未来、CVTE等企业。

为促进学界对汉语文本学习者纠错问题的研究，所有赛道均开放了供长期提交结果的验证榜单。借助本次评测公开的数据集，研究者可以将自己的方法和相关研究进行公平比较。

评测官方网站：https://blcuicall.github.io/CCL2022-CLTC/

评测数据仓库：https://github.com/blcuicall/CCL2022-CLTC

赛道一、二、三、五排行榜：http://cuge.baai.ac.cn/#/ccl_yaclc

赛道四排行榜：https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328

获奖信息

本次评测共有140多支队伍参赛，报名参赛的队伍包括清华大学、北京大学、中国科学院等高校和科研院所，以及好未来、CVTE等企业。

现将各赛道获奖信息公开如下：

赛道一：中文拼写检查

一等奖：哒哒（达观数据）
二等奖：iFunCun（方寸无忧）
三等奖：csc_runner（CVTE）

赛道二：中文语法错误检测

一等奖：NLP的未来（好未来）
二等奖：一一（达观数据）
三等奖：中国足球队（蜜度）

赛道三：多维度汉语学习者文本纠错

一等奖：kk（北京大学）
二等奖：改正带小助手（苏州大学）
三等奖：BUPTCL（北京邮电大学）

赛道四：多参考多来源汉语学习者文本纠错

一等奖：啊对对对（清华大学）、鱼饼啾啾（北京大学）
二等奖：棒棒冰（CVTE）
三等奖：后厂村9号（海泰方圆）

赛道五：语法纠错质量评估

一等奖：CPIC（中国太平洋保险）

衷心感谢各参赛队伍的参与，向获奖队伍以及所有参赛队伍表示祝贺！

致谢

本次评测期间，许多同学在数据处理、基线模型实验、方法复现以及组织管理的各个环节付出了宝贵的时间和辛勤的劳动，他们的付出保证了本次评测得以成功举办。在此，我们向这些同学们表示感谢！

北京语言大学：王莹莹、孔存良、方雪至、廖田昕、刘鑫、鲁鹿鸣、徐萌、刘洋、吴鎏

清华大学：梁念宁

苏州大学：章岳

东北大学：周天硕

编辑：孔存良、王梦焰、常鸿翔

扫码关注我们

BLCU-ICALL

语言监测与智能学习

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章