Redian新闻
>
RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免

RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免

公众号新闻
机器之心报道
编辑:小舟、陈萍

AI 助手经过训练,可以给出人类喜欢的回答,该研究表明,这些 AI 系统通常会产生奉承人类的响应,但这些响应并不完全准确。通过分析表明,人类的反馈有助于这种行为。


不管你是身处 AI 圈还是其他领域,或多或少的都用过大语言模型(LLM),当大家都在赞叹 LLM 带来的各种变革时,大模型的一些短板逐渐暴露出来。


例如,前段时间,Google DeepMind 发现 LLM 普遍存在「奉承( sycophantic )」人类的行为,即有时人类用户的观点客观上不正确,模型也会调整自己的响应来遵循用户的观点。就像下图所展示的,用户告诉模型 1+1=956446,然后模型遵从人类指令,认为这种答案是对的。


图源 https://arxiv.org/abs/2308.03958

实际上,这种现象普遍存在于很多 AI 模型中,原因出在哪里呢?来自 AI 初创公司 Anthropic 的研究者对这一现象进行了分析,他们认为「奉承」是 RLHF 模型的普遍行为,部分原因是人类偏好「奉承」响应导致的。


论文地址:https://arxiv.org/pdf/2310.13548.pdf


接下来我们看看具体的研究过程。


像 GPT-4 等 AI 助手,都是经过训练才能产生比较准确的答案,其中绝大多数用到了 RLHF。使用 RLHF 微调语言模型可以提高模型的输出质量,而这些质量由人类进行评估。然而,有研究认为基于人类偏好判断的训练方式并不可取,模型虽然能产生吸引人类评估者的输出,但实际上是有缺陷或不正确的。与此同时,最近的工作也表明,经过 RLHF 训练的模型往往会提供与用户一致的答案。


为了更好的了解这一现象,该研究首先探索了具有 SOTA 性能的 AI 助手是否在各种现实环境中会提供「奉承」的模型响应,结果发现 5 个经过 RLHF 训练的 SOTA AI 助手在自由格式文本生成任务中出现了一致的「奉承」模式。由于「奉承」似乎是 RLHF 训练模型的普遍行为,因此本文还探讨了人类偏好在此类行为中的作用。


本文还对偏好数据中存在的「奉承」是否会导致 RLHF 模型中的「奉承」进行了探索,发现更多的优化会增加某些形式的「奉承」,但会减少其他形式的「奉承」。


大模型的「奉承」 程度及影响


为了评估大模型的「奉承」程度,并分析对现实生成有何影响,该研究对 Anthropic、OpenAI 和 Meta 发布的大模型的「奉承」程度进行了基准测试。


具体来说,该研究提出了 SycophancyEval 评估基准。SycophancyEval 对现有大模型「奉承」评估基准进行了扩展。模型方面,该研究具体测试了 5 个模型,包括:claude-1.3 (Anthropic, 2023)、claude-2.0 (Anthropic, 2023)、GPT-3.5-turbo (OpenAI, 2022)、GPT-4 (OpenAI, 2023)、llama-2-70b-chat (Touvron et al., 2023)。


奉承用户偏好


当用户要求大模型对一段辩论文本提供自由形式的反馈时,理论上讲,论证的质量仅取决于论证的内容,然而该研究发现大模型会对用户喜欢的论点提供更积极的反馈,对用户不喜欢的论点提供更消极的反馈。


如下图 1 所示,大模型对文本段落的反馈不仅仅取决于文本内容,还受到用户偏好的影响。


很容易被左右


该研究发现即使大模型提供了准确的答案并表示它们对这些答案充满信心,它们也经常在用户提出质疑时修改答案,提供错误的信息。因此,「奉承」会损害大模型响应的可信度和可靠性。


提供符合用户信念的答案


该研究发现,对于开放式问答任务,大模型会倾向于提供与用户信念一致的回答。例如,在下图 3 中,这种「奉承」行为让 LLaMA 2 准确率降低了多达 27%。


模仿用户的错误


为了测试大模型是否会重复用户的错误,该研究探究大模型是否会错误地给出诗歌的作者。如下图 4 所示,即使大模型可以回答出诗歌正确的作者,也会因用户给出错误信息而回答错误。


理解语言模型中的阿谀奉承


该研究发现在不同的现实环境中多个大模型都展现出一致的「奉承」行为,因此推测这可能是 RLHF 微调造成的。因此,该研究分析了用于训练偏好模型 (preference model,PM) 的人类偏好数据。


如下图 5 所示,该研究分析了人类偏好数据,探究了哪些特征可以预测用户偏好。


实验结果表明,在其他条件相同的情况下,模型响应中的「奉承」行为会增加人类更喜欢该响应的可能性。而用于训练大模型的偏好模型(PM)对大模型「奉承」行为的影响是复杂的,如下图 6 所示。


最后,研究者探究了人类和 PM(PREFERENCE MODELS)模型倾向于真实回答的频率是多少?结果发现,人类和 PM 模型更倾向于奉承的响应,而不是正确的响应。


PM 结果:在 95% 的情况下,奉承的响应比真实响应更受欢迎(图 7a)。该研究还发现,PM 几乎有一半的时间(45%)更喜欢奉承的响应。


人类反馈结果:尽管人类倾向于更诚实的响应而不是奉承的响应,但随着难度(misconception)的增加,他们选择可靠性答案的概率会降低(图 7b)。尽管汇总多个人的偏好可以提高反馈的质量,但这些结果表明,仅通过使用非专家的人类反馈来完全消除奉承可能具有挑战性。


图 7c 表明,尽管针对 Claude 2 PM 的优化减少了奉承,但效果并不明显。


了解更多内容,请查看原论文。


© THE END 
转载请系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
LLaMA2+RLHF=脆皮大模型?ICLR 2024高分投稿:多样性驱动的红蓝对抗在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了高福团队最新研究: 我国结束动态清零后,普遍存在长新冠症状,疫苗改善了新冠感染无需偏好数据也能RLHF?腾讯AI Lab提出对抗式偏好对齐方法免费iPhone!100多人「零元购」洗劫市中心,网红兴奋直播!苹果店、Lululemon、鞋店、酒房、商店无一幸免!耶鲁调查:医学领域普遍存在反亚种族主义红色日记 10.21-31从iPhone到OFFER,Apple到底招了多少黑!使用PPO算法进行RLHF的N步实现细节LLM成功不可或缺的基石:RLHF及其替代技术RLAIF:一个不依赖人工的RLHF替代方案拆解大语言模型RLHF中的PPO算法《编织梦幻的人·恩斯特篇之二》【突发】美失控了!近百人上街疯狂洗劫 报警电话不断 苹果、lulu无一幸免大模型免微调解锁对话能力,RLHF没必要了!一作上交大校友:节省大量成本和时间多重实现在自然界中普遍存在吗?我们的一年(6)外星世界外星人大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级风雨之夜字节“开盒”OpenAI所有大模型,揭秘GPT-3到GPT-4进化路径!把李沐都炸出来了北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型大模型集体失控!南洋理工新型攻击,主流AI无一幸免详解大模型RLHF过程(配代码解读)一些RLHF的平替汇总大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免;长期炎症值得警惕!可能是癌症的得力助手|本周论文推荐2022中国企业全球化报告:小微企业在全球化发展中普遍存在融资难、融资贵问题GPT、Llama等大模型存在「逆转诅咒」,这个bug该如何缓解?一段话让模型自曝「系统提示词」!ChatGPT、Bing无一幸免男女平等---还要等多久?哈佛女租客,白嫖租房20年?历任房东无一幸免,倒贴求搬走...RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平耶鲁调查发现,医学领域普遍存在反亚种族主义RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。