ACL 2023最佳论文出炉！CMU西交大等摘桂冠，杰出论文奖华人学者占半壁江山

2023-07-11 05:07

新智元报道

编辑：拉燕好困

【新智元导读】ACL 2023大奖新鲜出炉了！本届大会，共颁发了3篇最佳论文、39篇杰出论文，还首次设立了特别奖。

ACL2023最佳论文奖来了！

今年，主办方为了能让更多优秀的研究入围，大幅增加了获奖论文的数量，还实施了全新的奖励政策。

据统计，获奖论文占投稿总数的1.5%-2.5%。

最终，共有3篇最佳论文，以及4篇特别奖论文，分别是4个主题——资源奖（Resource Award），社会影响奖（Social Impact Award），再现奖（Reproduction Award）和主题论文奖（Theme Paper Award）。

此外，还设有领域主席奖（Area Chair Award），该奖项由每个领域的高级主席提名，每个领域一篇。

下面，就让我们来看看这些获奖论文吧~

最佳论文奖（3）

Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest

作者：Jack Hessel, Ana Marasovic, Jena D. Hwang, Lillian Lee, Jeff Da, Rowan Zellers, Robert Mankoff and Yejin Choi

机构：艾伦人工智能研究所、犹他大学、康奈尔大学、OpenAI、华盛顿大学、航空邮件和漫画收藏馆

论文地址:https://arxiv.org/pdf/2209.06293.pdf

大型神经网络现在可以生成笑话，但它们真的「理解」幽默吗？

研究人员用《纽约客》漫画标题大赛衍生出的三个任务来挑战AI模型：将笑话与漫画匹配、识别获奖标题，以及解释获奖标题为何有趣。

这些任务渐进式地囊括了「理解」漫画所包含的更复杂的方面：关键因素是图像和标题之间复杂的、意想不到的关系，以及经常包含的对人类经验和文化的间接和俏皮的暗示。

研究人员对多模态模型和纯语言模型进行了分别研究：前者直接面对卡通图像的挑战，而后者则通过对视觉场景的多方面描述来模拟人类水平的视觉理解。

研究人员发现，这两类模型在这三个任务中都很吃力。例如，最好的多模态模型在匹配任务中的准确率比人类落后30个百分点，而且，即使提供了地面实况视觉场景描述符，在超过2/3的情况下，人类撰写的解释比机器撰写的最佳解释更受青睐。

研究人员发布了模型、代码、排行榜和语料库，其中包括新收集的注释，这些注释描述了图像的位置/实体、场景中的不寻常之处以及对笑话的解释。

What the DAAM: Interpreting Stable Diffusion Using Cross Attention

作者：Raphael Tang, Linqing Liu, Akshat Pandey, Zhiying Jiang, Gefei Yang, Karun Kumar, Pontus Stenetorp, Jimmy Lin and Ferhan Ture

机构：康卡斯特应用人工智能、伦敦大学学院、滑铁卢大学

论文地址：https://arxiv.org/pdf/2210.04885.pdf

大规模扩散神经网络是文本到图像生成领域的一个重要里程碑，但人们对它的了解仍然很少，缺乏可解释性分析。

在这篇论文中，研究人员对最近开源的稳定扩散模型进行了文本-图像属性分析。

为了生成像素级的归属图，研究人员对去噪子网络中的交叉注意力单词像素得分进行了放大和聚合，并将该方法命名为DAAM。

研究人员通过测试其在名词上的语义分割能力以及在所有语篇上的通用归属质量来评估其正确性，并由人类进行评分。然后，研究人员应用DAAM研究了句法在像素空间中的作用，描述了十种常见依赖关系的头部依赖热图交互模式。

最后，研究人员使用DAAM研究了几种语义现象，重点是特征纠缠，他们发现同音异义词会恶化生成质量，而描述性形容词的范围又太广。

这篇文章是第一个从视觉语言学的角度解释大型扩散模型的论文，为未来的研究提供了思路。

From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models

作者：Shangbin Feng, Chan Young Park, Yuhan Liu and Yulia Tsvetkov

机构：华盛顿大学、卡内基梅隆大学、西安交通大学

论文地址：https://arxiv.org/pdf/2305.08283.pdf

语言模型在不同的数据源上进行预训练，包括新闻、论坛、书籍和在线百科全书等等。

这些数据中有很大一部分包含了一些观点和看法，这些观点和看法一方面颂扬民主和思想的多样性，另一方面又带有固有的社会偏见。

在这篇论文中，研究人员开发了新的方法：

（1）沿着社会和经济轴测量在此类语料库上训练的LM中的政治偏见；

（2）测量在有政治偏见的LM之上训练的下游NLP模型的公平性。研究人员专注于仇恨言论和错误信息检测，旨在通过经验量化预训练数据中的政治（社会、经济）偏见对高风险社会导向任务公平性的影响。

研究结果表明，预训练的LM确实具有政治倾向，这种倾向强化了预训练语料中存在的两极分化，将社会偏见传播到仇恨言论预测和错误信息检测中。

最后研究人员讨论了他们的发现对NLP研究的影响，并提出了减轻不公平的未来方向。

特别奖（4）

再现奖：Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?

作者：Shuheng Liu, Alan Ritter

机构：佐治亚理工学院

论文地址：https://arxiv.org/pdf/2212.09747.pdf

命名实体识别（NER）是自然语言处理中一项重要的、经过深入研究的任务。

近20年前发布的经典CoNLL-2003英语数据集通常用于训练和评估命名实体标记器。

由于该数据集的年代久远，这些模型在应用于现代数据时表现如何需要探索。

在本文中，研究人员介绍了CoNLL++，这是一个新的注释测试集，它尽可能地模仿了创建原始CoNLL-2003测试集的过程，只是使用了2020年收集到的新数据。

利用CoNLL++，研究人员评估了20多种不同模型对现代数据的泛化。研究人员观察到，不同的模型具有非常不同的泛化行为。与使用静态词嵌入的模型相比，基于最近数据预训练的大型变换器模型的F1分数下降较少，而基于 RoBERTa和T5的模型在CoNLL-2003和CoNLL++上都获得了相当的F1分数。

实验表明，要实现良好的泛化能力，需要开发更大的模型，并继续使用域内数据和最新数据进行预训练。

这些结果表明，标准的评估方法可能低估了过去20年中命名实体识别的进展；除了提高在原始CoNLL-2003数据集上的性能外，研究人员还提高了模型对现代数据的泛化能力。

资源奖：When Does Translation Require Context? A Data-driven, Multilingual Exploration

作者：Patrick Fernandes, Kayo Yin, Emmy Liu, André Martins, Graham Neubig

机构：卡内基梅隆大学、葡萄牙里斯本理工学院和LUMLIS小组、葡萄牙里斯本电信研究所、加利福尼亚大学伯克利分校等

论文地址：https://arxiv.org/pdf/2109.07446.pdf

尽管正确处理语篇对提高机器翻译（MT）的质量大有裨益，但这些改进并未在常见的翻译质量指标中得到充分衡量。

语境感知MT领域的最新成果试图在评估过程中针对一小部分话语现象进行评估，但并没有完全系统化。

在本文中，研究人员开发了多语言语篇感知（MUDA）基准，这是一系列标记器，可以识别和评估模型在任何给定数据集中的语篇现象上的性能。

灵感来自于一种系统识别需要上下文的翻译的新方法。

研究人员证实了以前研究的难度，同时也发现了以前未涉及的其他现象。研究人员发现常见的上下文感知MT模型与上下文无关模型相比只有微小的改进，这表明这些模型不能有效地处理这些模糊性。

共发布了14对语言的代码和数据，以鼓励MT界关注准确捕捉话语现象。

社会影响奖：Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models

作者：Myra Cheng, Esin Durmus, Dan Jurafsky

机构：斯坦福大学

论文地址：https://arxiv.org/pdf/2305.18189.pdf

为了识别和减轻大型语言模型（LLM）的风险，研究人员需要了解LLM输出的内容中刻板印象的普遍性和细微差别。

本篇论文提出了Marked Personas，这是一种基于prompt的方法，用于测量LLM中交叉人口群体的刻板印象，而无需任何词典或数据标签。

基于社会语言学的标记性（markedness）概念，研究人员提出的方法有两个方面：

（1）提示LLM生成目标人群的「角色」（personas），即自然语言描述，以及未标记的默认人群的「角色」；

（2）识别目标人群的「角色」与相应的未标记人群的「角色」之间的明显区别。

研究发现，由GPT-3.5和GPT-4生成的描述包含种族刻板印象的比例高于使用相同提示的人工编写的描述。

区分标记群体（非白人、非男性）角色的词语反映了将这些人群异化和异域化的模式。交叉视角进一步揭示了主导边缘化群体形象的陈词滥调，如热带风情和对少数民族女性的过度性化。

这些表征上的危害对下游应用（如故事生成）具有重要影响。

主题论文奖：Weaker Than You Think: A Critical Look at Weakly Supervised Learning

作者：Dawei Zhu, Xiaoyu Shen, Marius Mosbach, Andreas Stephan, Dietrich Klakow

机构：萨尔大学、亚马逊、维也纳大学

论文地址：https://arxiv.org/pdf/2305.17442.pdf

弱监督学习是在低资源环境下训练机器学习模型的一种流行方法。

它不需要高质量但昂贵的人工标注，而是使用从各种弱来源获得的噪声标注来训练模型。最近，许多复杂的方法被提出用于标签噪声下的鲁棒训练，并取得了令人印象深刻的结果。

在本文中，研究人员重新审视了这些方法的设置，发现这些方法带来的好处被大大高估了。

具体而言，研究人员发现，现有弱监督学习方法的成功在很大程度上依赖于干净验证样本的可用性，而新的研究表明，只需在这些样本上进行训练，就能更有效地利用这些样本。

在训练中使用这些干净的标签后，使用这些复杂方法的优势就会荡然无存。即使将可用的干净数据规模缩小到每类只有5个样本，这种情况依然存在，这使得这些方法变得不切实际。为了了解弱监督学习的真正价值，研究人员深入分析了各种NLP数据集和任务，以确定弱监督方法何时以及为何有效。

基于这一发现，研究人员为未来的研究提供了建议。

领域主席奖

Linguistic Diversity（语言多样性）

题目：Small Data, Big Impact: Leveraging Minimal Data for Effective Machine Translation

作者：Jean Maillard, Cynthia Gao, Elahe Kalbassi, Kaushik Ram Sadagopan, Vedanuj Goswami, Philipp Koehn, Angela Fan and Francisco Guzman

Sentiment Analysis, Stylistic Analysis, and Argument Mining（情感分析、文体分析和论据挖掘）

题目：StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse Representations and Content Enhancing作者：Xuekai Zhu, Jian Guan, Minlie Huang and Juan Liu

机构：DCST人工智能研究所，智能技术与系统国家重点实验室，CoAI 小组、北京清华大学国家信息科学与技术研究中心、武汉大学计算机学院人工智能研究所

Discourse and Pragmatics（语篇与语用学）

题目：Resolving Indirect Referring Expressions for Entity Selection作者：Mohammad Javad Hosseini, Filip Radlinski, Silvia Pareti and Annie Louis

机构：谷歌研究院

Semantics: Sentence-level Semantics, Textual Inference, and Other Areas（语义学：句子级语义学、文本推理和其他领域）

题目：ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR Back-Translation作者：Kuan-Hao Huang, Varun Iyer, I-Hung Hsu, Anoop Kumar, Kai-Wei Chang and Aram Galstyan

机构：加州大学洛杉矶分校、伊利诺伊大学芝加哥分校、南加州大学信息科学研究、亚马逊Alexa AI

Question Answering（问答）

题目：DisentQA: Disentangling Parametric and Contextual Knowledge with Counterfactual Question Answering作者：Ella Neeman, Roee Aharoni, Or Honovich, Leshem Choshen, Idan Szpektor and Omri Abend

机构：耶路撒冷希伯来大学/谷歌研究院、特拉维夫大学

Semantics: Lexical（语义学:词汇）

题目：LexSym: Compositionality as Lexical Symmetry作者：Ekin Akyurek and Jacob Andreas

机构：MIT

NLP Applications（NLP应用程序）

题目：Are You Copying My Model? Protecting the Copyright of Large Language Models for EaaS via Backdoor Watermark

作者：Wenjun Peng, Jingwei Yi, Fangzhao Wu, Shangxi Wu, Bin Bin Zhu, Lingjuan Lyu, Binxing Jiao, Tong Xu, Guangzhong Sun and Xing Xie

机构：中国科学技术大学、微软亚洲研究院、北京交通大学、索尼人工智能、微软亚洲科技中心

Speech and Multimodality（言语和多模态）

题目：Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for Robust Audio-Visual Speech Recognition

作者：Yuchen Hu, Ruizhe Li, Chen Chen, Chengwei Qin, Qiu-Shi Zhu and Eng Siong Chng

机构：新加坡南洋理工大学、英国阿伯丁大学、中国科学技术大学

Interpretability and Analysis of Models for NLP（NLP模型的可解释性与分析）

题目：Entity Tracking in Language Models

作者：Najoung Kim and Sebastian Schuster

Linguistic Theories, Cognitive Modeling, and Psycholinguistics（语言学理论、认知模型和心理语言学）

题目：Exploring How Generative Adversarial Networks Learn Phonological Representations

作者：Jingyi Chen and Micha Elsner

机构：俄亥俄州立大学语言学系

Resources and Evaluation（资源与评价）

题目：Tell2Design: A Dataset for Language-Guided Floor Plan Generation

作者：Sicong Leng, Yang Zhou, Mohammed Haroon Dupty, Wee Sun Lee, Sam Joyce and Wei Lu

机构：新加坡科技设计大学StatNLP研究组、新加坡A*STAR高性能计算研究所、新加坡国立大学计算机学院、新加坡科技设计大学、Meta设计实验室

Multilingualism and Cross-Lingual NLP（多语言和跨语言NLP）

题目：Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages

作者：Ayyoob ImaniGooghari, Peiqin Lin, Amir Hossein Kargaran, Silvia Severini, Masoud Jalili Sabet, Nora Kassner, Chunlan Ma, Helmut Schmid, André Martins, François Yvon and Hinrich Schütze

机构：德国慕尼黑工业大学CIS、德国慕尼黑机器学习中心(MCML) 、里斯本高等理工学院、葡萄牙电信学院、Unbabel公司、法国索邦大学