Redian新闻
>
「用 AI 训 AI」这事靠谱吗?

「用 AI 训 AI」这事靠谱吗?

公众号新闻

专题解读

事件:

来自 Meta、纽约大学的研究者近期发表论文,提出用「自我奖励方法」,让大模型自己生成自己的微调数据。研究者对 Llama 2 70B 进行了三个迭代的微调,生成的模型在 AlpacaEval 2.0 排行榜上优于 Claude 2、Gemini Pro 和 GPT-4 等现有大模型。

大型语言模型通过以逐步思考链格式生成解决方案,解决需要复杂多步推理的任务。其中,检测和减少幻觉对于提高推理能力至关重要。通过训练奖励模型以区分期望的和不期望的输出则是一种有效的方法,奖励模型可以用于强化学习流程或通过拒绝采样进行搜索。如何有效地训练可靠的奖励模型至关重要。

现阶段,OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法,让大模型可以从人类偏好中学习奖励模型,再使得奖励模型被冻结并用于使用强化学习训练 LLM。通过使用人类偏好数据调整大语言模型(LLM)可以提高预训练模型的指令跟踪性能。但 RLHF 存在依赖人类反馈的局限性。

Meta 提出的「自我奖励语言模型」(Self-Rewarding Language Models, SRLMs)是一种新型的语言模型,在训练过程中利用自身生成的反馈来自我提升。自我奖励语言模型不是被冻结,而是在 LLM 调整期间不断更新,避免了冻结奖励模型质量的瓶颈。


自我奖励模型的核心思路是什么?与传统奖励模型对比,有哪些优势?

1、自我奖励语言模型的关键是开发一个拥有训练期间所需的所有能力的智能体(而不是分为奖励模型和语言模型),让指令跟随任务的预训练和多任务训练允许通过同时训练多个任务来实现任务迁移。

2、研究者引入的自我奖励语言模型,其智能体既充当遵循模型的指令,为给定的提示生成响应,也可以根据示例生成和评估新指令,以添加到其训练集中。

3、首先,研究者提出假设:可以访问基本的预训练语言模型和少量人工注释的种子数据,然后建立一个模型,旨在同时拥有指令遵循和自指令创建两种技能。使用这些技能是为了使模型能够执行自对准,即用于使用人工智能反馈(AIF)迭代训练自身的组件。

4、自指令的创建包括生成候选响应,让模型本身判断其质量,即它充当自己的奖励模型,从而取代对外部模型的需求。这是通过 LLM-as-a-Judge 机制实现的,即通过将响应评估制定为指令跟随任务。这个自行创建的 AIF 偏好数据被用作训练集。

5、在微调过程中,相同的模型被用于两个角色:「学习者」和「法官」。基于新出现的法官角色,模型可以通过上下文微调来进一步提升性能。

6、整体的自对齐过程,是一个迭代过程,构建一系列模型,每个模型都比上一个模型有所改进。
① 由于模型既可以提高其生成能力,又可以通过相同的生成机制作为自己的奖励模型,意味着奖励模型本身可以通过这些迭代来改进,与奖励模型固有的标准做法不同。

② 研究者认为,该方式可以提高这些学习模型未来自我改进的潜力上限,消除限制性瓶颈。

7、与传统的奖励模型相比,自我奖励模型的关键优势在于其不是固定的,而是在语言模型(LLM)对齐过程中不断更新。
① 该方法避免了传统模型中奖励模型固定不变的瓶颈,使得模型在训练过程中能够同时提高生成能力和奖励模型能力。
② 通过将奖励模型整合到同一系统中,SRLMs 实现了任务迁移,使得奖励建模任务和指令遵循任务之间能够相互转移和提升。

RLAIF 的思路与自我奖励模型有哪些不同?解决了哪些问题?

1、与 RLHF 相比,RLAIF 采用了 AI 反馈强化学习的思路,用 AI 替代人类进行偏好标注。与「自我奖励模型」不同的是,RLAIF 利用 AI 反馈来扩展强化学习规模,通过使用大型语言模型(LLM)生成的偏好标签来训练奖励模型(RM),然后使用 RM 提供奖励来进行强化学习。

2、2022 年 12 月,Anthropic 发布 Claude 对应论文《Constitutional AI: Harmlessness from AI Feedback》,在这篇研究论文中,首次提出了 RLAIF,发现 LLM 与人类判断表现出高度一致,甚至在某些任务上,表现优于人类。

3、2023 年 9 月,谷歌也发表了论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》,提出 AI 反馈强化学习方法 RLAIF,用 AI 替代人类进行偏好标注。
1)使用 LLM 标记偏好
研究者使用一个现成可用的 LLM 来在成对的候选项中标记偏好。通过给定一段文本和两个候选摘要,LLM 的任务是评判哪个摘要更好 ......


使用 AI 合成数据,存在哪些风险?

1、高质量数据是训练大模型的关键。目前,模型训练大部分的数据来自于互联网,如 Twitter、GitHub、Arxiv、Wikipedia、Reddit 等网站。随着模型的规模继续增大,人们需要投喂更多的数据来训练模型。

2、然而,在使用模型生成的数据来训练新模型时,会产生「哈布斯堡诅咒」或称「模型自噬」现象,即模型过度依赖由前代模型生成的数据进行训练,可能导致信息的失真和质量下降。

3、在论文《The Curse of Recursion: Training on Generated Data Makes Models Forget》中,研究者指出如果使用 AI 生成的内容作为语料训练 AI 大模型,会导致「模型崩溃」现象发生 ......


Meta 提出的「自我奖励方法」是如何实现「自我迭代」的?与传统的奖励模型相比有哪些优势?RLAIF 与「自我奖励模型」有哪些不同?使用 AI 合成数据训练模型可靠吗?存在哪些风险?... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 04

「机器之心PRO」业内通讯 · 2024年度#Week 04

1. 视频数据是开发下一代 AI 的关键吗?

为什么 LeCun 觉得下一代 AI 需要学习视频数据?Transformer 的视频学习能力如何?Transformer 的竞品会更擅长学习视频数据吗?...

2. 「用 AI 训 AI」这事靠谱吗?

Meta 提出的「自我奖励方法」是如何实现「自我迭代」的?与传统的奖励模型相比有哪些优势?RLAIF 与「自我奖励模型」有哪些不同?使用 AI 合成数据训练模型可靠吗?存在哪些风险?...

3. 从数据看 AI 开源社区的发展情况

开源 AI 项目、贡献者发展趋势如何?开源 AI 基础模型的发展情况如何?2023 年,开源 AI 创企的市场情况怎么样?对于开源,AI 业内大佬有哪些看法?...


↓↓↓ 关注「机器之心 PRO 会员」服务号,点击菜单栏「收件箱」查看往期通讯。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
这6个在海外赚翻的宠物创新机会,靠不靠谱?靠谱吗?数学不好真的可以考CFA吗...求助,请别「封印」这部属于普通人的「巨幕」神话机场“狂飙”服务火了!靠谱吗?官方郑重提醒个人感慨之四十七 幺蛾子个人感慨之四十六 神奇的国度我似乎被「讨好他人」这件事给控制了......马斯克第3次回应吸食K药,这个抑郁症“神药”靠谱吗?他终于证明了老鼠有类人的想象力!靠谱的,在Science上发文了过去这一年个人感慨之四十九​国家电网年终奖究竟有多少?8万+的传闻靠谱吗?个人感慨之四十八 公权力因为AI,构建「腹部地图」这个医学工作加速了数百倍【学业辅导】社区大学靠谱吗?陆本转美本,你需要一个指南针!体验 | 黑心中介专坑港漂,拍胸脯保证靠谱的菲佣来我家后,自曝有精神病家族史……凡事靠自己,能解决80%的问题3000的白酒不到600就能拿下,直播间“福利”有多少是靠谱的?「感情和睦,但性欲不匹配」这样的感情要继续吗?查理.芒格去世,他说:远离不靠谱的人和事,越快越好AI靠谱吗?美大法官表态了!英法院早用起来了……如何理解「男人至死是少年」这句话?番茄小说内测AI辅助写作功能,靠谱吗?补货啦!忆小口爆款返团,营养靠谱好操作,8分钟搞定娃的美味午餐!​同为35名!纽大、 UCSB、UIUC、威斯康星,为什么「录取差距」这么大?65%成年儿女「啃老」这3州爸妈每月贴补超过800元看脸识人靠谱吗?你的判断可能是错的​国家电网年终奖8万+起的传闻靠谱吗?在艺术展上蹦迪?这事儿靠谱一些车次开售即秒光?“抢票软件”靠谱吗?12306回应→陈乔恩6天减6斤的减肥大法靠谱吗?就业倍数高达5.75倍的EB-5乡村项目靠谱吗?美国签证保签?100%包过?到底靠不靠谱?奥数比赛都成黑竞赛了,海外数学竞赛靠谱吗?适合什么样的孩子?新智驾独家 | 陈思英担任极星COO,原营销部门精简为三大「用户」板块
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。