Redian新闻
>
OpenAI的Superalignment策略:计算为王

OpenAI的Superalignment策略:计算为王

公众号新闻
来自:李rumor

进NLP群—>加入NLP交流群

对于怎么实现AGI这个玄学的目标,感觉大家都是差不多的状态:咱也不知道怎么做,但就是觉得现在的LLM技术还远远不够

所以之前看到OpenAI说要用模型去做对齐研究[1],以及最近发话要4年内做出SuperAlignment[2]时,我都是一脸问号,觉得没什么新东西,get不到他们的思路。

为什么要做AI研究器

直到最近断断续续刷了两遍Jan Leike的访谈,我突然有种悟了的感觉,原来核心思想就这么简单。而且回过头看,OpenAI近几年其实就是在遵循这个思想,却做出了看似「暴力」的一个个突破。

OpenAI所选择的路径就是:「Turn compute into alignment」,通过计算的量变产生智能的质变。计算需要数据、算力、模型框架的共同作用,拆解成具体的步骤,则是自动化->规模化->迭代。

以前我们总以「范式」这个词来划分NLP的发展,比如监督学习->预训练+精调->预训练+RLHF。其实这些范式只是增加有效计算量的方法:

  • 自动化:有监督 -> 自监督,摆脱人的依赖,更高效地获取监督信号
  • 规模化:在更多的数据、更大的模型上进行更多的计算
  • 迭代:不断基于新的case迭代模型,形成数据飞轮

自动化和规模化所带来的质变不用多说,GPT系列足以证明。但最后一步的「迭代」却经常被忽视,而这可能是通向Superalignment重要的一步,Alpha GO就是最好的栗子。 它从最开始模仿人类棋手落子,到具备基本能力后不断自我博弈,最终超越人类棋手。

那么问题来了:目前我们所做的「迭代」,不管是RLHF还是纯SFT,仍旧需要人工提供监督信号,无法做到自动化和规模化,迭代速度就会很慢。同时人类也无法监督超越自身水平的任务,不可能训出超智能的模型。这就是为什么OpenAI从22年就开始说,要用AI来辅助人类进行评估[3]

继续思考,如果有个模型可以给出等同人类水平的监督信号,我们除了评估还可以用它干什么?当然是顺着量变产生质变的思想,让它自动化、规模化地帮忙迭代出AGI呀!

  • 自动化:让AI研究器自动规划实验、提供监督信号训练模型
  • 规模化:把上述自动流程扩展
  • 迭代:AI研究器本身也是一个模型,让它们鸡生蛋蛋生鸡,不断互相训练

想到这里,OpenAI为什么要构建「a roughly human-level automated alignment researcher」的思路就水到渠成了。不知道Jan Leike大佬的思考逻辑是怎样的,反正我自己这么捋下来还挺顺,欢迎讨论。

如何做AI研究器

找到「AI研究器」这个启动点之后,接下来就是怎么实现的问题了。相比于如何训练出这个模型,Jan大佬把主要的中心都放在了如何构建自动化、全面化的评估上,其实跟上面的道理一样,好的评估可以提供监督反馈,从而指导模型的迭代方向

首先,需要能验证模型可以达到人类水平。其实要真正评估出这个还是很难的,就像现在业内这么多模型,没人能给出一个真的排行榜一样。而且最好是自动化的,避免人来提供ground truth,才能进行更全面的评估。这里大佬提供了一个discriminator-critique gap的测量方法,比如我们做了一个编程模型,想利用ChatGPT自动评估他的效果,最简单的做法是直接命令ChatGPT判断某道编程题做的对不对。那问题就来了,我们怎么确定ChatGPT评估结果是否置信?都人工看一遍太浪费时间了。自动化的做法是直接基于ChatGPT训练一个判断变成结果是否正确的判别模型,然后我们专门用一些有label的难样本,去看判别模型的准确率和ChatGPT的准确率,如果差的不多,就说明不用训练也可以用它直接评估编程结果的好坏。

其次,自动化地进行鲁棒性检测、可解释性分析。为啥非要做可解释性呢?

  1. 可以为我们指出解决问题的途径
  2. 现有很多研究是在做知识和神经元的关联性,大佬认为更有意义的是自动化、规模化地去做,从而探究更高维度(模型整体)的可解释性

最后,故意训练不对齐的模型进行对抗测试,验证评估方法的有效性。从而避免出现假对齐的情况。最极端的就是真训出了一个超级智能,他可能会想办法备份自己的权重,逃脱人类控制,需要专门通过其他代理任务(比如让模型去hack某台机器)看一下这个程度有多难,评估系统能否检测出来。

投入成本的考量

OpenAI未来4年内将会在Superalignment上组建30-100人规模的团队,投入20%的算力。其实20%个人感觉主要是先表个决心,这个数量Jan大佬说已经是对齐方向上最大的单笔投入了,做得好以后还会再加。

倒是4年这个规划,说近不近说远不远,还关乎于其他从业者要经历多久的红利衰退期(狗头),Jan给出了如下规划:

  1. 2年内搞清楚用什么技术实现AI对齐研究器,把问题拆的足够细,剩下就是工程问题了
  2. 3年内实现AI对齐研究器
  3. 剩下一年探索超级对齐

这么一看时间还是挺紧的,后面两个计划略显乐观,Jan给出的信心是85%,而且表示有很多实验已经在实验中了(至少从22年8月那个博文发出前就开始研究了)。他的信心主要来自于5方面:

  1. 语言模型的成功:LLM可以理解自然语言,让我们可以向模型表达我们希望他们怎么做,操控起来更加容易
  2. RLHF的效果超出预期:只用了很少的计算,甚至还没尝试收集数据,就可以在小模型上得到比大模型更好的效果
  3. 在评估度量方面已经取得了很多进展,可以提供改进的方向
  4. 评估比生成更简单:如果人类只做评估,而不做生成,那么开发速度就会加快,还是自动化监督信号的思想
  5. 对语言模型的信念:语言模型很适合做超级对齐,任何任务都可以表述为文本的输入输出,不管是做实验和理解结果都可以做

目前的技术还有用吗

对于预训练,Jan Leike认为预测下一个token这种方式并不一个长期目标,可能需要更好的任务。个人认为互联网上视频、图像、文字数据迟早会被消耗殆尽,所以目前的预训练主要是提供一个较好的基模型,后续高质量的监督信号应该会来源于模型本身,就像前文一直说的「自动化」。但这样是否还能称作「预训练」就不一定了。

对于RLHF,Jan Leike也持怀疑态度,因为目前的监督信号来源于人工评判,但人工并不擅长区分看起来都很好的答案,各种论文显示人类之间的一致率有70%就不错了,这个监督信号本身自己都不一定对的齐。同时,需要人工就导致无法规模化扩展,也不符合我们增加计算量的需求。

目前预训练+RLHF的范式大概率也只是AI发展中的一个版本,按照OpenAI的AI研究器思路,后续模型训练的系统复杂度可能会提升很多,估计会有N多个擅长不同任务的AI研究器来训一个模型,人工只需要提供少量监督信号,告诉系统要做什么,就可以让他们自动运转,训完了自动同步权重,不断升级

总结

整个Jan Leike的采访看下来,真的收获颇丰,不知道有没有清晰地表达出来,其实就是:

  1. 计算是核心,计算的量变产生智能的质变
  2. 加速有效计算量的方法是:自动化->规模化->迭代

就像人类百万年来,从石器时代进化到现在的信息时代,科技的进步不是一蹴而就,而是螺旋上升,由几代人的智慧凝结而成

P.S. 本文包含很多个人对OpenAI博文、Jan Leike访谈的理解,请辩证看待,欢迎讨论。

参考资料

[1]

Our approach to alignment research: https://openai.com/blog/our-approach-to-alignment-research

[2]

Introducing Superalignment: https://openai.com/blog/introducing-superalignment

[3]

Our approach to alignment research: https://openai.com/blog/our-approach-to-alignment-research


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~过程重要还是结果重要?今日学徒岗|高盛Customer Support Apprenticeship项目开放,中学/大学毕业生均可申请!Kris Wu Accuser Asked For Public Support. Now She’s Suing Them.专访丨积家CEO Catherine Rénier:情感联结和艺术表达对腕表也至关重要XiamenAir opens non-stop service between Paris and Xiamen2023年算力研究:计算、存储、网络及软件教你把一句5分雅思写作高P成7分,题目《should government ban extreme sports》As Travel Resumes, WeChat, Alipay to Support Foreign Bank CardsOpenAI 设立 Superalignment 团队:让 AI 对齐人类价值观,预防潜在风险万科人都在用的SU模型,到底有多高端!(附SU下载)双林奇案录第三部之川黔连环案: 第三十二节"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"SUPERSTROKE NEW ZENERGY 系列:用您的反馈打造反应灵敏的推杆握把!2024招聘季 | Nomura (US) 新开Quant Summer Internship项目学徒计划|高盛Customer Support Apprenticeship项目开放,中学/大学毕业生均可申请!算力研究:计算、存储、网络(2023)拥有Medicare红蓝卡看病还需要付费吗?利用Part C和Supplement补充计划来帮您获得更多保障!Shanghai Mayor Vows Further Support for Foreign BusinessesDesktop(ryzen 5 3600/16gram/rtx 2060super/1t ssd)偷偷把边境界碑往外挪两米,算不算为国开疆扩土?鹅厂用游戏教海淀学生机器学习?北师大评测:计算思维提升超80%机构点评汇总:计算机迎来“蜜糖”行情网友:计算机专业月薪 2 万侮辱价狗都不去DBC职梦学员斩获Citi (US)2024 Summer Internship Offer《即将分崩离析的美国?》(2): 投奔天堂入地下恭喜!DBC职梦学员拿下Deloitte咨询 (HK) Summer Internship Offer!重读'普京的最佳结局'SuperAlignment in Medical Science: 中文医疗大模型评估基准CMBHélène Binet:光的哲学家你好,我是筚(bì)篥( lì)!之江实验室:计算+生物融合创新青年学术研讨交流会邀您参加!Desktop(i7-9700/16gram/rtx 2080 super /256gssd/2t hdd)瓦格纳造反与普大帝的未来精选SDE岗位 | Snowflake、Databricks、Blizzard Entertainment公司岗位发布!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。