Redian新闻
>
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限

调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限

公众号新闻

机器之心报道

机器之心编辑部
RLHF 方法虽然强大,但它并没有解决开发人性化人工智能的基本挑战。


自 ChatGPT 问世,OpenAI 使用的训练方法人类反馈强化学习(RLHF)就备受关注,已经成为微调大型语言模型(LLM)的核心方法。RLHF 方法在训练中使用人类反馈,以最小化无益、失真或偏见的输出,使 AI 模型与人类价值观对齐。


然而,RLHF 方法也存在一些缺陷,最近来自 MIT CSAIL、哈佛大学、哥伦比亚大学等机构的数十位研究者联合发表了一篇综述论文,对两百余篇领域内的研究论文进行分析探讨,系统地研究了 RLHF 方法的缺陷。



论文地址:https://huggingface.co/papers/2307.15217


总的来说,该论文强调了 RLHF 的局限性,并表明开发更安全的 AI 系统需要使用多方面方法(multi-faceted approach)。研究团队做了如下工作:


  • 调查了 RLHF 和相关方法的公开问题和基本限制;

  • 概述了在实践中理解、改进和补充 RLHF 的方法;

  • 提出审计和披露标准,以改善社会对 RLHF 系统的监督。


具体来说,论文的核心内容包括以下三个部分:


1.RLHF 面临的具体挑战。研究团队对 RLHF 相关问题进行了分类和调查,并区分了 RLHF 面临的挑战与 RLHF 的根本局限性,前者更容易解决,可以在 RLHF 框架内使用改进方法来解决,而后者则必须通过其他方法来解决对齐问题。


2. 将 RLHF 纳入更广泛的技术安全框架。论文表明 RLHF 并非开发安全 AI 的完整框架,并阐述了有助于更好地理解、改进和补充 RLHF 的一些方法,强调了多重冗余策略(multiple redundant strategy)对减少问题的重要性。


3. 治理与透明度。该论文分析探讨了改进行业规范面临的挑战。例如,研究者讨论了让使用 RLHF 训练 AI 系统的公司披露训练细节是否有用。


我们来看下论文核心部分的结构和基本内容。


如下图 1 所示,该研究分析了与 RLHF 相关 3 个过程:收集人类反馈、奖励建模和策略优化。其中,反馈过程引出人类对模型输出的评估;奖励建模过程使用监督学习训练出模仿人类评估的奖励模型;策略优化过程优化人工智能系统,以产生奖励模型评估更优的输出。论文第三章从这三个过程以及联合训练奖励模型和策略四个方面探讨了 RLHF 方法存在的问题和挑战。



论文第三章总结的问题表明:严重依赖 RLHF 来开发人工智能系统会带来安全风险。虽然 RLHF 很有用,但它并没有解决开发人性化人工智能的基本挑战。



研究团队认为:任何单一策略都不应被视为综合解决方案。更好的做法是采用多种安全方法的「深度防御」,论文第四章从理解、改进、补充 RLHF 这几个方面详细阐述了提高 AI 安全性的方法。



论文第五章概述了 RLHF 治理面临的风险因素和审计措施。



总结


该研究发现,实践中很多问题来源于 RLHF 的根本局限性,必须采用非 RLHF 的方法来避免或弥补。因此,该论文强调两种策略的重要性:(1) 根据 RLHF 和其他方法的根本局限性来评估技术进步,(2) 通过采取深度防御安全措施和与科学界公开共享研究成果,来应对 AI 的对齐问题。


此外,该研究阐明一些挑战和问题并非是 RLHF 所独有的,如 RL 策略的难题,还有一些是 AI 对齐的基本问题。


感兴趣的读者可以阅读论文原文,了解更多研究内容。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效Fabulous拉斯维加斯印象详解大模型RLHF过程(配代码解读)李开复麾下大模型公司零一万物上线,数十位核心成员就位RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布一个音乐弥漫的午后大模型RLHF的trick放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师两百余篇大模型论文揭秘RLHF的挑战与局限分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用用 Transformer 和 RLHF「炼」大模型,危?中科大提出:LLMs的个性化综述,详述大模型与个性化的挑战与机遇已发80余篇SCI论文,985教授分享3个月发表顶刊顶会的秘密RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好10行代码媲美RLHF!谷歌DeepMind用游戏数据让大模型更像人类大模型论文阅读神器来了!5秒翻译67页论文,直接截图提问,网页可试玩2023夏游江南(中)北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院发布全新对齐算法RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代RLHF中的「RL」是必需的吗?斯坦福提出用二进制交叉熵直接微调LLMRLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平RLAIF:一个不依赖人工的RLHF替代方案RLHF 实践中的框架使用与一些坑 (TRL, LMFlow)RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作多GPU通信效率提升4倍,RLHF生成提升2.25倍!DeepSpeed ZeRO++重磅升级马拉松赛前焦虑症FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了WAIC 2023 | 新加坡国立大学尤洋教授 :AI大模型的挑战与系统优化共识解读 | 2023 ESC-HFA临床共识声明:WHF的定义、流行病学及防治策略世界各国人眼中的中国第一美女:差异不是一般的大啊复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好【附PDF】整理了114篇医疗论文,含cvpr2023医疗论文+经典论文+医疗论文综述等
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。