ICML杰出论文开奖，北大数院、武汉理工校友获奖，苹果大模型相关研究入选

公众号新闻

2023-07-26 06:07

鱼羊梦晨发自凹非寺
量子位 | 公众号 QbitAI

ICML 2023杰出论文，今天开奖！

今年共有32篇论文入围候选，最终6篇论文脱颖而出，分别涉及：

无学习率学习、大语言模型水印、分布外泛化、不完美信息零和博弈的近优策略、马尔可夫链蒙特卡罗算法和序列决策等研究方向。

作者之中，依然不乏华人学者的身影，包括北大数院校友Yunbei Xu，武汉理工校友Jie Hu，以及马里兰大学帕克分校的Yunxin Wen。

一起来看获奖论文具体细节。

ICML杰出论文

Learning-Rate-Free Learning by D-Adaptation

作者来自Meta AI和三星AI中心。

这篇论文提出了一个有趣的方法，旨在解决在非光滑随机凸优化问题中获得无需学习率的最优界限的挑战。作者提出了一个新的方法来克服传统学习率选择在优化这类问题时带来的限制。这项研究为优化领域做出了有价值的实践贡献。

论文地址：https://openreview.net/forum?id=GXZ6cT5cvY

A Watermark for Large Language Models

作者来自马里兰大学。作者之一的Yuxin Wen目前在马里兰大学帕克分校读博，此前曾在百度实习。

这篇论文提出了一种给大语言模型输出添加水印的方法，即在生成的文本中嵌入人类不可见但算法可检测的信号。可无需重新训练即可生成水印，并在不访问API或参数的情况下检测。还提出了一种用可解释p-value检测水印的统计测试方法和一个信息论框架来分析其敏感性。该方法简单新颖，并进行了充分的理论分析和可靠的实验。考虑到检测和审核大模型生成的合成文本所带来的关键挑战，本文有可能对该研究领域产生重大影响。

论文地址：https://openreview.net/forum?id=aX8ig9X2a7

Generalization on the Unseen, Logic Reasoning and Degree Curriculum

作者来自洛桑联邦理工学院和苹果。

这项工作在布尔函数学习方面取得了重大进展，特别是针对“看不见的泛化”(Generalization on the Unseen，GOTU)设置，提出了一个具有挑战性的分布外泛化问题。文广泛深入地探讨了这一重要课题，提供了一种结构合理的方法，并辅以理论分析和大量实验。此外，它还勾勒出深度神经网络领域的一个关键研究方向，从而脱颖而出。

论文地址：https://openreview.net/forum?id=3dqwXb1te4

Adapting to game trees in zero-sum imperfect information games

作者来自CREST、ENS Lyon、Omron Sinic X以及DeepMind等研究机构。

这篇论文介绍了不完全信息零和博弈的近优策略。它严格地建立了一个新颖的下界，并提出了两种算法—平衡 FTRL 和自适应 FTRL。这些贡献极大地推动了不完全信息博弈优化领域的发展。实验证实了这些说法，为研究结果提供了充分的支持。

论文地址：https://openreview.net/forum?id=O1j4uFuSVW

Self-Repellent Random Walks on General Graphs - Achieving Minimal Sampling Variance via Nonlinear Markov Chains

作者来自昆泰公司和北卡罗来纳州立大学。作者之一的Jie Hu目前在北卡罗莱纳州立大学攻读博士，他本科毕业于武汉理工大学。

这篇论文探讨了一系列具有挑战性的开放问题，即具有自斥随机游走的 MCMC。它超越了传统的非回溯方法，为 MCMC 采样的新研究方向铺平了道路。作者对马尔可夫链蒙特卡罗做出了原创性的、非同小可的贡献；令人瞩目的是，该过程可以得到严格的分析和证明。论文文笔优美，对主要概念的解释清晰直观。结果令人信服且全面。

论文地址：https://openreview.net/forum?id=450iImFM4U

Bayesian Design Principles for Frequentist Sequential Learning

作者来自哥伦比亚大学。一作Yunbei Xu是北大数院校友，完成论文时在哥伦比亚大学读博，现为MIT博士后研究员。

本文解决了设计老虎机和其他顺序决策策略中非常普适的问题。它提出了使用一种新提出的量“算法信息比”来界定任意策略的遗憾的方法，并推导出了优化这个界的方法。这个界比之前的相似信息论量更紧。而且这些方法在随机和对抗多臂老虎机环境下表现良好，达到了兼顾各方的最优。特别有趣的是，本文可能为多臂老虎机开辟了一条新的探索-利用策略的道路，不止局限于著名的汤普森采样和UCB法则。这一原理能推广到强化学习的特点也非常有前景。本文受到所有审稿专家的一致强烈推荐。