Redian新闻
>
复旦发布层次性奖励学习框架,增强大模型人类偏好对齐

复旦发布层次性奖励学习框架,增强大模型人类偏好对齐

科技
 夕小瑶科技说 原创
 作者 | 松果

引言:人类反馈中的层次化奖励在强化学习中的新探索

在人工智能领域,强化学习(Reinforcement Learning, RL)一直是实现智能体自主学习的关键技术之一。通过与环境的交互,智能体能够自我优化其行为策略,以获得更多的奖励。然而,当涉及到复杂的人类偏好时,传统的强化学习方法面临着挑战。这些挑战主要源于人类监督信号的不一致性和稀疏性,这使得智能体难以准确地对齐人类的期望。

为了解决这一问题,研究者们提出了从人类反馈中学习的强化学习(Reinforcement Learning from Human Feedback, RLHF)方法。RLHF通过利用人类标注的比较数据来微调大语言模型(LLMs),以更好地与人类偏好对齐。然而,人类标注在评估两个或更多模型输出时可能存在不一致和不可靠的问题。这些问题导致了RLHF中不稳定的奖励信号,而稳定的奖励是成功强化学习的关键。

为了应对这些挑战,本文介绍了一种新的框架——ALARM(Align Language Models via Hierarchical Rewards Modeling),它是首个在RLHF中模拟层次化奖励的框架。ALARM通过整合整体奖励和特定方面的奖励,提供了更精确和一致的指导,特别是在复杂和开放的文本生成任务中。通过采用一种基于一致性过滤和组合多个奖励的方法,ALARM为改善模型对齐提供了可靠的机制。通过在长篇问答和机器翻译任务中的应用,验证了该方法的有效性,并展示了与现有基线相比的改进。

论文标题:
ALaRM: Align Language Models via Hierarchical Rewards Modeling

论文链接:
https://arxiv.org/pdf/2403.06754.pdf

ALARM框架的动机与设计

1. 框架动机

ALARM框架的设计动机源于对当前强化学习中人类反馈(RLHF)的限制的认识。这些限制包括人类监督信号的不一致性和稀疏性,这在复杂的开放式文本生成任务中尤为突出。为了解决这些问题,ALARM框架提出了一种整合全面奖励和特定方面奖励的方法,以提供更精确和一致的指导,从而更好地与人类偏好对齐。

在实际应用中,例如长篇问答和机器翻译任务,传统的RLHF方法面临着奖励信号不稳定的挑战。例如,即使是人类专家也难以为复杂任务编写足够好的示范,而从众包平台获得的模型生成对比评价则显示出注解的不一致性和不可靠性。ALARM框架通过筛选和组合多个奖励信号来提供更可靠的模型对齐机制。

2. 框架设计

ALARM框架的设计基于两个核心思想:首先,通过对不同错误类型的细分,实现更精确和容易的注解;其次,采用分层强化学习中的任务分解方法来克服稀疏奖励问题。

框架的核心是寻求更强的监督信号:仅使用全面奖励很难达到更好地与人类偏好对齐的“优越区域”。因此,ALARM采用分层方式组合多个奖励,以稳定优化方向,更准确和一致地指导模型进入优越区域。

在实际操作中,首先列出与任务相关的多个特定方面奖励,并通过成对比较的方式选择与全面奖励一致性较高的奖励。在RLHF训练过程中,当生成的样本获得高于某一阈值的全面奖励时,选定的特定方面奖励将与全面奖励一起作为整体奖励进行组合。

这些特定方面奖励可以来自于在特定维度上注解的比较数据集上训练的奖励模型,也可以是简单的工具计算指标(如令牌计数),其密度可以在令牌级别或序列级别任意设置。

▲框架图示

层次化奖励建模的核心原理

1. 奖励选择

在特定维度上对模型生成进行评估,而不是评估总体质量,已被证明对奖励建模来说噪声更小、更准确。因此,为了获得更准确和一致的监督信号,首先直观地列出与特定任务相关的多个特定方面奖励。然而,人类偏好复杂,不同分解的方面相互联系,甚至可能相互冲突。为了平衡它们,通常的方法是加权求和方法,这需要基于训练期间的表现或成对比较的准确性来为每个特定方面奖励仔细选择权重。

然而,这种方法仍然存在过度优化问题,即模型丢失了来自每个单独特定方面奖励的个体信息,无法将组合奖励中的变化归因于任何一个方面。因此,ALARM框架通过丢弃冲突的奖励,选择与全面奖励最一致的奖励,以此来解决这一挑战。

2. 分层奖励建模

分层强化学习在广泛的决策任务中取得了显著进展,它将复杂且具有挑战性的优化目标分解为更简单的子任务。与此相反,现有的RLHF工作通常采用简单的奖励策略,即线性分配单一的全面奖励或固定组合的特定方面奖励,这不仅在长期优化中带来稀疏奖励的问题,而且忽视了全面奖励与特定方面奖励之间的紧密关系。

基于这些动机,ALARM提出了一种新方法,利用全面和特定方面奖励。通过这种方式,将语言模型与人类偏好对齐的优化目标视为一个具有挑战性的决策任务,并将这个任务分解为两个较不复杂的子任务,这两个子任务应该依次解决:

  • 直接遵循全面奖励,直到模型生成获得高全面奖励,表明生成物在较高水平上符合人类偏好;
  • 优化全面奖励和特定方面奖励的组合,作为整体提供更准确和一致的监督信号,指向优越区域。

与整个训练过程中都应用组合奖励的简单加权求和方法不同,ALARM方法更为微妙。主要遵循全面奖励的监督,并在仅依靠全面奖励无法达到优越区域时,轻轻转动方向盘。

应用场景与实验设置

1. 应用场景

ALARM框架通过整合整体奖励和特定方面的奖励,解决了当前对齐方法中人类监督信号不一致和稀疏的问题。该框架在复杂和开放的文本生成任务中,特别是长篇问答和机器翻译任务中得到了应用和验证。

2. 实验设置

2.1 任务设置

长篇问答(QA)任务中,使用了QA-Feedback数据集,初始策略模型为经过监督微调的T5-large,以及三个细粒度的奖励模型。这些奖励模型分别代表不同的错误类型,在不同层次上进行预测。

机器翻译(MT)任务中,使用了Europarl数据集,该数据集包含欧洲议会会议的记录。初始策略模型为mT5-base,并在训练集上进行了监督微调。此外,列出了三个特定方面的奖励,包括语法奖励、语言信心和可读性奖励,这些奖励通过工具包计算得出。

2.2 奖励选择

在奖励选择方面,首先列出了与任务相关的几个特定方面的奖励。然后,通过成对比较来计算这些候选奖励与整体奖励的不一致性,以筛选出最能辅助整体奖励的奖励。例如,在长篇问答任务中,事实性奖励的不一致性最低,因此被选为层次化奖励建模的“副驾驶”。在机器翻译任务中,语法奖励因其较低的不一致性和更好的胜率而被选中。

2.3 奖励建模

在奖励建模方面,对整体奖励进行z标准化,并使用sigmoid函数对特定方面的奖励进行正值转换,以确保层次结构。设置了一个阈值,当生成的样本获得高于该阈值的整体奖励时,将整体奖励与选定的特定方面的奖励结合起来。在强化学习训练中,采用纯采样策略,并使用贪婪解码进行开发集和测试集评估。

实验结果与分析

长篇问答任务的测试集上,ALARM在整体奖励的平均值和事实性率方面均显著高于其他方法。除ALARM外,仅使用整体奖励的方法获得了最高的整体奖励值,而仅使用事实性奖励的方法获得了最高的事实性率。权重求和方法则平衡了这两个奖励。在不同模型之间的成对比较中,ALARM在所有三种不同的度量标准下均表现最佳,这进一步表明ALARM提供了比其他方法更强的监督信号。

机器翻译任务中,ALARM在整体奖励的平均值、语法错误率和gpt-3.5-turbo评估方面的结果也强烈支持了该框架的有效性。

消融研究:验证ALARM组件的重要性

1. 无选择的消融研究

在不进行奖励选择的情况下,研究者对ALARM进行了一系列实验,将初始奖励池中的每个奖励分别应用于两个任务。主动选择的奖励在整体奖励和gpt-3.5-turbo的评估中表现出领先的性能,这证明了奖励选择的有效性。

此外还观察到,某些奖励在两个评估者的评分中存在冲突。研究者认为这是由于整体奖励的偏见和缺陷造成的,例如持续忽视或过度重视某些方面,这超出了本文的讨论范围。

2. 无组合的消融研究

为了检验ALARM是否通过利用整体奖励和特定方面奖励提供了更准确和一致的监督信号,研究者比较了单独使用各自奖励的方法。结果显示,ALARM在两个维度上都一致地取得了更好的结果。

3. 无层次结构的消融研究

研究者将ALARM框架与传统的加权求和方法进行对比,以突出层次结构的重要性。加权求和方法的结果反映了整体奖励和特定方面奖励之间的妥协,限制了其在两方面都表现出色的能力。相比之下,ALARM利用层次化奖励建模提供了更强大的监督信号,从而在两个维度上都提高了性能。

结论与未来展望

本文介绍了ALARM框架,这是首个在强化学习中从人类反馈(RLHF)中建模层次化奖励的框架,旨在提高大语言模型(LLMs)与人类偏好的一致性。ALARM框架通过整合全局奖励和特定方面的奖励,解决了当前对齐方法中存在的人类监督信号不一致性和稀疏性的问题。

这种整合使得语言模型在复杂和开放式文本生成任务中得到更精确和一致的指导。通过在长篇问答和机器翻译任务中的应用,验证了该方法的有效性,并展示了与现有基线相比的改进。

1. 研究贡献

  • 首次提出在RLHF中层次化建模全局和特定方面奖励的框架;
  • 探索如何进行奖励选择以减少奖励冲突;
  • 通过全面的消融研究和分析,证明了ALARM在追求更准确和一致的监督信号方面的有效性,并为可扩展监督在AI对齐中的潜力提供了启示。

2. 未来工作

尽管ALARM框架在实验中展示了其有效性,但研究者们认识到仍有一些挑战和限制。

  • 首先,该框架需要为每个任务专门设计奖励,这在扩大应用场景时构成了挑战。
  • 其次,需要改进奖励的自动选择机制。在评估中使用了OpenAI的API,这可能会给常规用户带来额外的成本和响应时间的不稳定性。

3. 伦理和透明度

研究没有涉及直接的人类或动物主体,并且没有明显的伦理问题。使用的数据集和工具包,如QA-Feedback、Europarl、Textstat、Lingua和LanguageTool,都是公开可用的。已经采取措施确保我们的研究透明可复制。确认研究和方法论没有涉及有害的实践和潜在的误用。致力于在工作中维护最高的诚信和伦理责任标准。

综上所述,ALARM框架为强化学习提供了一种新的视角,即通过层次化奖励建模来提高语言模型与人类偏好的一致性。期待未来的研究能够在该工作基础上,进一步探索和扩展这一领域,特别是在提高奖励选择的自动化和减少对外部API依赖方面。此外,鼓励研究社区继续关注AI对齐的可扩展性问题,以实现更广泛的应用和更深入的人类偏好理解。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布写小说,还是回忆录?AAAI 2024 | 中科院信工所提出结构化概率编码框架,有效增强预训练语言模型泛化能力负笈不敌温柔乡(1)ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性Apache 顶级项目 MXNet 退役!大神李沐创办、亚马逊首选深度学习框架如何从大厂“宠儿”到落入“冷宫”?匿名论文提出奇招!增强大模型长文本能力居然还能这么做模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分从零构建现代深度学习框架(TinyDL-0.01)谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型阿里通义千问2.5大模型发布;阿里达摩院提出“知识链”框架,逐步纠错降低大模型幻觉丨AIGC日报人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈全面解析RLHF,PPO,DPO,Flash Attention,增量学习等大模型算法今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜情绪稳定的「不稳定」,可能是边缘型人格 | 边缘型人格障碍评估与治疗墨大联合新华社等发布基准框架,全面评估大模型的新闻写作能力和安全依从性今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路不明白播客:大选前夜体验台湾民主的细节大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事低层次父母,喜欢不断挑剔孩子,而高层次父母,只做这三件事Node.js 22发布,增强了对ESM模块和Web API的支持今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!破解大模型安全难题,360推出大模型安全能力框架童年故事(35):小镇钟表匠浙大发布Agent学习框架,13B 模型达到 ChatGPT 水平!无需训练实现价值观实时动态对齐:上交开源价值观对齐方法,闭源与开源大模型均适用NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)英文作者会描述一个景物叙事的双重比喻Meta提出全新文档级嵌入框架,利用LLM来增强信息检索能力顶刊IJCV 2024!基于概率表征的半监督对比学习框架
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。