Redian新闻
>
OpenAI 的超级对齐团队是在做什么

OpenAI 的超级对齐团队是在做什么

公众号新闻

作者 | Jeffrey Wu、John Schulman、Jan Leike

译者 | 王强

策划 | 褚杏娟  

OpenAI 不久前宣布了该公司超级对齐团队的第一项成果。这个团队是该公司的一项内部计划的产物,致力于预防一种超级智能体(一种假象的未来计算机,可以比人类更聪明)走向失控。

与该公司的许多公告不同的是,这次的公告并没有包含什么重大突破。在一篇低调的研究论文中,该团队描述了一种技术,可以让一个水平较低的大型语言模型监督一个能力更强大的语言模型,论文声称这可能是向着“弄清楚人类如何监督超人类水平的机器”这一目标迈出的一小步。

此前 OpenAI 陷入了危机,首席执行官 Sam Altman 被监督委员会解雇(这显然是由首席科学家 Ilya Sutskever 领导的政变),三天后他又重新上任。这次的公告距离这桩风波不到一个月,而它传达的信息很明确:公司又回到了正轨,一切如常。

然而 OpenAI 的业务并不寻常。许多研究人员仍然质疑机器是否能够媲美人类的智能水平,更不用说超越人类智能了,但 OpenAI 团队认为机器最终一定会取得优势。“过去几年中人工智能的进步非常快,”超级对齐团队的研究员 Leopold Aschenbrenner 说:“我们不断刷新所有基准测试纪录,而且这种势头有增无减。”

对于 Aschenbrenner 和公司的其他人来说,行业出现具有接近人类能力水平的模型是指日可待的。“但它不会就此止步,”他说:“我们将拥有超人模型,也就是比我们聪明得多的模型。这样的未来将会带来很多全新的、直击根本的技术挑战。”

7 月,Sutskever 和 OpenAI 科学家 Jan Leike 成立了超级对齐团队来应对这些挑战。“我这样做是为了我自己的利益,”Sutskever 在 9 月份告诉《麻省理工科技评论》:“我们得保证任何人构建的任何超级智能都不会失控,这一点显然非常重要。”

人们猜测 Altman 因他在公司的人工智能安全策略方面的做法反复无常而被解雇,现在 Sutskever 的超级对齐团队又成了头条新闻。许多人都在期待着,想知道到底发生了什么。

该做什么和不该做什么

该团队想要回答的问题是如何控制或“调整”假想中的、比我们聪明得多的未来模型,即所谓的超人模型。对齐意味着让模型确保执行你希望它执行的操作,而不执行你不希望它执行的操作。超对齐的理念把这种思想应用到了超人模型上。

用于调整现有模型的一项非常流行的技术称为“通过人类反馈的强化学习”。简而言之,人类测试人员会对模型的反应打分,对他们希望看到的行为投赞成票,对他们不希望看到的行为投反对票。然后这些反馈会被用于训练模型,使其仅产生人类测试人员喜欢的响应类型。这项技术是让 ChatGPT 变得如此吸引人的一个重要原因。

问题在于,这种方法要求人类首先能够辨别什么是理想的行为、什么是不理想的行为。但超人模型这种情况下,模型可能会做出一些人类测试人员无法理解的事情,因此测试人员无法对它们评分。(Sutskever 告诉我们,它甚至可能试图向人类隐藏其真实行为。)

OpenAI 解决超对齐问题的方法

研究人员指出,这个问题很难研究,因为超人机器目前并不存在,所以他们使用了一种替代方法。他们没有研究人类该如何监督超人类机器,而是研究了 OpenAI 五年前发布的模型 GPT-2 该如何监督 OpenAI 最新、最强大的模型 GPT-4。“如果你能做到这一点,这也许就能证明你可以使用类似的技术来让人类监督超人类模型,”超级对齐团队的另一位研究员 Collin Burns 说。

该团队引入 GPT-2,并训练它执行一些不同的任务,包括一组国际象棋谜题和 22 个评估推理、情感分析等常见自然语言处理测试。他们利用 GPT-2 对这些测试和谜题的反应来训练 GPT-4 执行相同的任务,这就好像让三年级学生教十二年级学生如何完成任务一样。诀窍是在不让 GPT-4 的性能受到太大影响的情况下做到这一点。

结果好坏参半。该团队测量了根据 GPT-2 最佳猜测结果训练的 GPT-4 与根据正确答案训练的 GPT-4 之间的性能差距。他们发现,经过 GPT-2 训练的 GPT-4 在语言任务上比 GPT-2 表现好 20% 到 70%,但在国际象棋难题上表现较差。

团队成员 Pavel Izmailov 表示,GPT-4 完全超越了它的老师,这一事实令人印象深刻:“这是一个非常令人惊讶和积极的结果。”但他说,它远远没有发挥出它自己的潜能。他们的结论是,这种方法很有前景,但还需要做更多的工作。

“这是一个有趣的想法,”德国斯图加特大学从事对齐研究的人工智能研究员 Thilo Hagendorff 说道。但他认为 GPT-2 可能太笨了,无法成为一名好老师。“GPT-2 往往会对任何稍微复杂或需要推理的任务给出无意义的响应,”他说。Hagendorff 想知道如果改用 GPT-3 会发生什么事情。

他还指出,这种方法并没有解决 Sutskever 所假设的一种场景,也就是超级智能会隐藏其真实行为,并假装和人类保持一致,虽然它实际上可能已经跑偏了。“未来的超人模型可能会拥有研究人员也不了解的新兴能力,” Hagendorff 说:“在这些情况下,对齐方法该如何发挥作用呢?”

但他说,指出缺点是很容易的事情。他很高兴看到 OpenAI 开始从猜想转向实验:“我对 OpenAI 的努力表示赞赏。”

OpenAI 现在希望招募其他人加入他们的事业。除了这项研究成果更新之外,该公司还宣布了一项新的 1000 万美元资金计划,计划用于资助从事超级对齐工作的人员。它将向大学实验室、非营利组织和个人研究人员提供高达 200 万美元的赠款,并向研究生提供 15 万美元的一年期奖学金。“我们对此感到非常兴奋,” Aschenbrenner 说:“我们的确认为新加入的研究人员可以做出很多贡献。”

相关链接

https://www.technologyreview.com/2023/12/14/1085344/openai-super-alignment-rogue-agi-gpt-4

https://openai.com/blog/introducing-superalignment

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

80 岁 Postgres 创始人、数据库领域“祖师爷”想颠覆数据库设计:不推翻下当前技术,不足以谈人生

既怕“错过”又怕“错付”,数字化投入与产出该如何量化?我们总结了七个核心观察

国产编程语言新拐点:聊聊从 Mojo 到 MoonBit 的思考|盘点

在技术圈逢凶化吉,靠的居然不是技术?Altman 晒出17条年终总结,人际关系占首位

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Scopely CEO专访:如何打造一家年收入100亿的超级手游公司?收割人类 III 之第十八章 宇宙养老计划(2)北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效hé bàng?hé bèng?突然“情绪崩溃”?很可能因为你总是在做这件事——杉杉股份董事长郑驹最新演讲:汽车智能化升级对材料企业提出更高要求ChatGPT揭示 OpenAI 事件的深层矛盾:有效加速 VS 超级对齐红色日记 批判运动 4.1-15招人,不只是在找足够好的人,更是在找足够匹配的人:给创业者的8个一线故事年底美股行情----先把血窟窿堵上NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效月薪20W!Citadel等多家顶级对冲基金公司官宣:全球大扩招!有效加速还是超级对齐?曲终人散,人见人爱的他离开了甜!为了追女友,北美学长闯进顶级对冲基金无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式波士顿MBTA, 不是在关停就是在关停的路上......无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用月薪50w!恭喜学员收到顶级对冲基金Millennium (US) 暑期实习一面邀请!具身智能超级对话:人工智能如何引领机器人革命甜!为了追女友,UMich学长闯进美国顶级对冲基金“年度最吓人图片”贴脸开大:5年前的超市传单 VS 今年的超市传单无需训练实现价值观实时动态对齐:上交开源价值观对齐方法,闭源与开源大模型均适用深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐华人大妈海外出圈!插队被提醒后当场打骂小伙!网友:不排队是中国文化?OpenAI太可怕了!Tyler Perry 在见证 OpenAI 的 Sora 后,搁置了价值8亿美元的扩展计划太刺激了!505 of 700 employees @OpenAI to resign,几个老中在内!如今的主创,都在做什么工作?OpenAI组建「集体对齐」新团队,确保AI模型与人类价值观保持一致!揭榜|2023数字化践行者企业 TOP 20、团队 TOP 10、个人 TOP 10 花落谁家?汇添富量化团队:靠什么取得稳定的超额?Sam 和 Ilya 的深层矛盾:有效加速主义 vs. 超级「爱」对齐葡萄牙之路:风雨飘摇中的记忆英伟达 RTX 4080 SUPER GPU 跑分出炉:OpenCL 测试比非 SUPER 版高 7%有没有一种可能,80%的鸡娃是在做无用功?95后强迫症等级对照表.xls让OpenCV 5活下去!OpenCV发起50万美元众筹!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。