Redian新闻
>
媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐

媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐

公众号新闻

最近复旦大学自然语言处理组郑骁庆和黄萱菁团队提出了基于表征工程(Representation Engineering)的生成式语言大模型人类偏好对齐方法 RAHF(如图 1 所示),作为基于人类反馈的强化学习算法 RLHF [1] 的代替方法之一,其性能上超过其他现有的替代方案,媲美 RLHF。实现较为简单,训练时对于硬件资源要求也相对较低。

论文题目:
Aligning Large Language Models with Human Preferences through Representation Engineering

论文链接:

https://arxiv.org/pdf/2312.15997.pdf


动机

▲ 图1. 不同人类偏好对齐算法的对比。(a)人类反馈的强化学习算法RLHF;(b)基于对比学习的偏好优化方法DPO;(c)基于提示工程的HIR;(d) 基于表征工程的RAHF。

构建类似 ChatGPT 生成式语言大模型一般要经过语言模型、提令精调和强化学习三个主要训练步骤,其中第三步使用强化学习来实现人类期望对齐既有一定的技术难度,又需要多次人工标注反馈,因而实现上有一定挑战。经过前两步语言模型和提令精调之后,语言大模型仍然会生成带有偏见、歧视或者令人不适的回答。
为了提升大模型的安全性、可用性和可信性,与人类期望对齐是必不可少的步骤。然而目前研究表明利用人类反馈的强化学习算法 [1](RLHF)存在训练不稳定、对超参数敏感和训练代价较高等问题。 
针对基于强化学习的人类偏好对齐方法的上述不足,最近提出了一些替代的方法,相关实现思路和方法包括:
1. 借助对比学习的方法 [2-4],代表性工作为 DPO(Direct preference optimization)[2],即提高符合人类偏好回复生成概率的同时,降低人类满意度较低回复的生成概率;
2. 基于提示工程的方法 [5-6],代表性工作为 HIR(Hindsight instruction relabeling)[5],即根据与人类偏好相符程度,设计不同的提示。在推理时使用匹配人类偏好较高的提示,从而引出更好的回答。 
虽然上述方法都是 Reward-free 的方法(即不需要训练奖励评估模型),但实验表明这些替代强化学习方法存在容易受到训练集中噪声样本的影响(比如:错误标注、Dull Sentences 和较短回复等)。
主要原因是它们都是采用在样本上直接精调的方式实现与人类偏好对齐,因而易受样本质量的影响,而基于人类反馈的强化学习算法先训练评估模型,然后采用评估模型的评分来引导模型的训练过程。即使训练样本存在的噪声,也通过评估模型的“过滤”,对最终模型不会产生直接的影响。

方法

为了获得轻量级、易实现和 Reward-free 的人类偏好对齐方法,同时也缓解最终模型受训练样本中噪声数据的不利影响。受到表征工程 Representation Engineering [7] 方面最新进展的启发,我们提出了 RAHF(Representation Alignment from Human Feedback)方法。
在神经网络中,网络权重决定了隐层表征、隐层表征决定了网络输出、网络输出决定了网络行为(如:安全、真实、偏见等方面)。我们通过首先发现模型在生成不同质量回复时网络隐层激发模式及差异,然后利用差异来对模型行为进行调整和操控。具体方法包括以下三个主要步骤:
1. 使用带偏好注释的数据集来让大型语言模型“感知”人类的偏好;
2. 收集模型在不同偏好“刺激”情况下的隐层激活模式;
3. 利用收集到的激活模式及差异来调整模型使其与与人类偏好对齐。 
我们尝试了两种方法让模型“感知”人类偏好:单一模型(RAHF-SCIT)和二元模型(RAHF-DualLLMs)。都取得了不错的结果,虽然二元模型 RAHF-DualLLMs 性能更佳,但单一模型 RAHF-SCIT 实现更为简单,对硬件资源的要求也更低。


结果

我们在对话任务上对进行了对比实验。实验结果表明所提出的 RAHF 人类偏好对齐方法在各项指标上都优于其他非强化学习方法,并取得了与 RLHF-PPO 相媲美的结果。
如表 1 所示,在 Anthropic-HH 数据集上相对于首选回复的胜率(结果使用 GPT-4 进行评判),我们所提出的 RAHF-DualLLMs 超过了除 RLHF-PPO 之外的所有代替方法,并且与 RLHF-PPO 仅有 0.01 的差距。
▲ 表1. 在Anthropic-HH数据集上相对于首选回复的胜率(结果使用GPT-4进行评判)

表 2 报告了在不同生成采样温度下,偏好注释数据上我们自己所训练的奖励模型(Reward model)和第三方提供的奖励模型上的各方法的平均得分比较,这些数据也与表 1 的结果相吻合,并且表现出相似的趋势。


▲ 表2. 在不同生成采样温度下,偏好注释数据上所训练的奖励模型(Reward model)和第三方提供的奖励模型上的各方法的平均得分比较。

这项工作我们尝试了一种受认知神经科学理论启发的基于表征工程来实现生成式语言大模型与人类偏好对齐的策略,旨在提出一种轻量级和易实现的解决方案。目前仍然还有许多可改进的空间,我们希望这项研究能够有助于更可控人工智能技术的发展。

参考文献

[1]Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.

[2]Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290.

[3]Zhao, Y., Joshi, R., Liu, T., Khalman, M., Saleh, M., & Liu, P. J. (2023). SLIC-HF: Sequence likelihood calibration with human feedback. arXiv preprint arXiv:2305.10425.

[4]Yuan, Z., Yuan, H., Tan, C., Wang, W., Huang, S., & Huang, F. (2023). RRHF: Rank responses to align language models with human feedback without tears. arXiv preprint arXiv:2304.05302.

[5]Zhang, T., Liu, F., Wong, J., Abbeel, P., & Gonzalez, J. E. (2023). The wisdom of Hindsight makes language models better instruction followers. arXiv preprint arXiv:2302.05206.

[6]Liu, H., Sferrazza, C., & Abbeel, P. (2023). Languages are rewards: Hindsight finetuning using human feedback. arXiv preprint arXiv:2302.02676.

[7]Zou, A., Phan, L., Chen, S., Campbell, J., Guo, P., Ren, R., ... & Hendrycks, D. (2023). Representation engineering: A top-down approach to AI transparency. arXiv preprint arXiv:2310.01405.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
浙大提出KnowPAT框架:大模型的知识偏好对齐与垂域应用语言大模型的进化轨迹联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型「减肥神药」1年只需注射3次,斯坦福大学科学家开发出基于水凝胶的GLP-1药物递送系统6041 血壮山河 卢沟桥之变 10纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画LLaMA2+RLHF=脆皮大模型?ICLR 2024高分投稿:多样性驱动的红蓝对抗EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型告文学城网友书重新拿起笔来深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式今日arXiv最热NLP大模型论文:北京大学警惕ChatGPT等大模型遏制人类的创新能力大模型免微调解锁对话能力,RLHF没必要了!一作上交大校友:节省大量成本和时间朝鲜战争志愿军为什么没有全军覆没今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!使用PPO算法进行RLHF的N步实现细节小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式无需偏好数据也能RLHF?腾讯AI Lab提出对抗式偏好对齐方法无需训练实现价值观实时动态对齐:上交开源价值观对齐方法,闭源与开源大模型均适用​EMNLP 2023 findings | 生成式框架下解决输入扰动槽填充任务今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?苏东坡诗文里的酒与酒鬼一些RLHF的平替汇总刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集Nat. Commun. | 高歌课题组提出跨平台、多模态空间组学比对与整合方法今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损吴恩达最新推出基于大模型的《AI高级检索》课程,限时免费白嫖!模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用拆解大语言模型RLHF中的PPO算法提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。