Redian新闻
>
RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布

RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

MIT哈佛斯坦福等机构在内的32位科学家联合指出:

被视作ChatGPT成功关键的RLHF,存在缺陷,而且分布在各个环节。

他们调查翻阅了250篇相关论文,仅研究正文就长达18页,其中7页描述了具体缺陷。

此研究一经发出,就受到大量关注。

有网友表示:这是一次伟大尝试。所有这些都是为了帮助启动 RLHF 的学术议程。

第一作者Casper还给了RLHF一个「新的解释」:

Rehashing Lessons from Historical Failures
从历史的失败中汲取经验

不仅指出问题,还有解决方案

作者在论文中表示,这项研究主要有三项贡献。

第一是指出了RLHF在人类反馈、奖励模型和决策三个主要环节中的缺陷。

第二点则是针对这些问题,提供了具体的解决思路。

第三则是呼吁提高RLHF训练出的模型的透明度,并表示训练信息公开有助于提高企业责任感。

我们先来看看作者在各个环节中都指出了哪些具体缺陷。

人类反馈的局限性

RLHF区别于其他强化学习方式的关键之处就在于人类反馈。

但作者认为,人类反馈很容易存在不准确的情况,因而是缺陷的一大重要来源。

在人类反馈环节中,作者首先提到的是人类会产生误导性评价

对大模型而言,所涉及的专业领域涵盖了方方面面,没有人能做到样样精通。

因此需要在不同领域选择有代表力的人物,并让他们给出高质量的反馈。

但实际上这项工作是十分困难的。

此外由于人并非完全理性,个别评价者的观点难免带有偏见,甚至可能产生毒害。

除了观念问题引起的「故意」偏差,还有一些偏差是「不小心」的。

由于时间、注意力的不足,人类犯错误的情况是很难避免的

而一些带有迷惑色彩的信息,也可能导致人类被误导。

而一些对于有一定困难的任务,人类甚至难以对其做出评价。

论文介绍,不只是做出评价时会产生偏见,评价收集的过程同样是偏见的一大来源

收集过程中需要对评价的有用性进行评估,所以评估人员的主观想法同样可能带来影响。

在这个过程当中,还不可避免地存在成本与质量之间的权衡,影响准确程度。

除了反馈的内容,反馈的形式也存在一定的局限性,这也是出于成本的考虑。

奖励模型和策略也需改善

接着,作者又指出,除了人类的反馈,RLHF本身的奖励模型和决策方式也有需要改进之处。

其中奖励函数可能难以准确描述价值判断,单个函数更是无法代表整个人类社会的价值观。

奖励模型还有泛化能力差的问题,存在奖励机制被恶意利用的风险。

此外,奖励模型的质量也难以评估,即使能够实现也需要很高的成本。

因为真实的奖励函数通常是不可知的,只能通过策略优化进行间接评估。

策略方面,论文指出很难高效地对策略进行优化,难以保证策略的鲁棒性。

在策略执行阶段,可能会出现与奖励阶段的差异,此前处理得很好的内容突然出现问题。

而策略阶段可能使用一些预训练模型,这同样可能引入其中所包含的偏见信息。

另外,在对奖励模型和决策方式进行协同训练时,会出现漂移问题,在效率和避免过拟合之间找到平衡点也存在困难。

如何解决

根据论文内容我们可以看到,从人类反馈到RLHF自身的奖励模型和决策方式,都存在不同程度的问题。

那么该如何解决呢?作者为我们提供了一些思路。

比如针对人类反馈的局限性问题,作者的策略是可以引入另一套AI系统或奖励模型,对反馈进行评价。

还有对过程进行监督指导、要求提供更精细化的反馈等措施。

另外两个环节,作者同样给出了解决方案。

对于可以奖励模型,把让AI协助人类反馈这个思路调换一下,让人类直接监督其表现。

而对于决策方式问题,可以在预训练阶段就对模型进行对齐,并在训练中加入指导。

作者还指出,除了RLHF,其他AI领域存在的安全问题同样需要引起重视,并提出了相应的对策。

RLHF is Not All You Need

作者简介

领衔的两位作者分别是MIT CSAIL实验室的Stephen Casper和哈佛大学的Xander Davies。

Casper的主要研究方向是对齐算法,此前曾发表过关于扩散模型评估的论文并获得ICML的Spotlight Paper奖。

Davies的主要研究方向是AI安全,今年有两篇论文被ICML Workshop收录。

其他作者当中,还可以看到不少华人的名字。

论文地址:
https://arxiv.org/pdf/2307.15217.pdf
参考链接:
https://twitter.com/StephenLCasper/status/1686036515653361664

报名开启!8月9日

欢迎参加「AIGC时代的算力基石」

8月9日15:00量子位行业沙龙「AIGC时代的算力基石」将为你全景解读AIGC算力的发展机遇,邀请到来自昆仑芯、天数智芯、联想集团、首都在线、潞晨科技等代表性企业的嘉宾,聊聊行业的最新趋势!

点击“阅读原文”,报名线下参与AIGC算力沙龙吧 


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
详解大模型RLHF过程(配代码解读)六月球场骚音鸟最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作中共中央 国务院《关于支持福建探索海峡两岸融合发展新路 建设两岸融合发展示范区的意见》DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效多GPU通信效率提升4倍,RLHF生成提升2.25倍!DeepSpeed ZeRO++重磅升级复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好5086 血壮山河之武汉会战 黄广战役 18重磅!历史一刻!哈佛等名校招生涉种族因素,最高法院裁定违宪放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院发布全新对齐算法北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型华裔高中生“美国高考”几乎拿下满分,却被哈佛等六大名校拒之门外!只因...10行代码媲美RLHF!谷歌DeepMind用游戏数据让大模型更像人类FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了用 Transformer 和 RLHF「炼」大模型,危?大模型RLHF的trick调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限ESC-HFA2023丨FINEARTS-HF研究设计及基线特征重磅发布!非奈利酮或将开启LVEF≥40%心衰人群管理“心”篇章8位学者获2023未来科学大奖,单项奖金约725万元!RLHF 实践中的框架使用与一些坑 (TRL, LMFlow)RLAIF:一个不依赖人工的RLHF替代方案共识解读 | 2023 ESC-HFA临床共识声明:WHF的定义、流行病学及防治策略RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代中共中央 国务院关于支持福建探索海峡两岸融合发展新路 建设两岸融合发展示范区的意见汉尼拔:军事战略与战术之父RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师外派故事 (34) 浪漫专家欧阳晓旭哈佛等美国名校临时更改招生要求,文书重要性达新高!我国学者联合在抗新冠病毒新抑制剂设计领域取得多项进展《山之高》&《听说爱情回来过》全文丨中共中央 国务院关于支持福建探索海峡两岸融合发展新路 建设两岸融合发展示范区的意见两百余篇大模型论文揭秘RLHF的挑战与局限RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。