Redian新闻
>
OpenAI神秘新模型Q*曝光,太强大让董事会警惕,或是奥特曼被开除导火索

OpenAI神秘新模型Q*曝光,太强大让董事会警惕,或是奥特曼被开除导火索

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI宫斗大戏刚刚落幕,马上又掀起另一场轩然大波!

路透社曝光,在奥特曼被解雇之前,几位研究人员给董事会写的警告信可能是整个事件导火索:

内部名为Q (发音为Q-Star)*的下一代AI模型,过于强大和先进,可能会威胁人类。

Q*正是由这场风暴的中心人物,首席科学家Ilya Sutskever主导。

人们迅速把奥特曼此前在APEC峰会上的发言联系在了一起:

OpenAI历史上已经有过四次,最近一次就是在过去几周,当我们推开无知之幕并抵达探索发现的前沿时,我就在房间里,这是职业生涯中的最高荣誉。”

Q*可能有以下几个核心特性,被认为是通往AGI或超级智能的关键一步。

  • 突破了人类数据的限制,可以自己生产巨量训练数据

  • 有自主学习和自我改进的能力

这则消息迅速引发了巨大讨论,马斯克也带着链接来追问。

最新的梗图则是,好像一夜之间,人们都从研究奥特曼和OpenAI董事会的专家,变成了Q*专家。

突破数据限制

根据来自The Information的最新消息,Q*的前身是GPT-Zero,这个项目由Ilya Sutskever发起,名字致敬了DeepMind的Alpha-Zero。

Alpha-Zero无需学习人类棋谱,通过自己跟自己博弈来掌握下围棋。

GPT-Zero让下一代AI模型不用依赖互联网上抓取的文本或图片等真实世界数据,而是使用合成数据训练。

2021年,GPT-Zero正式立项,此后并未有太多直接相关的消息传出。

但就在几周前,Ilya在一次访谈中提到:

不谈太多细节,我只想说数据限制是可以被克服的,进步仍将继续。

在GPT-Zero的基础上,由Jakub Pachocki和Szymon Sidor开发出了Q*。

两人都是OpenAI早期成员,也都是第一批宣布要跟着奥特曼去微软的成员。

Jakub Pachocki上个月刚刚晋升研究总监,过去很多突破包括Dota 2项目和GPT-4的预训练,他都是核心贡献者。

Szymon Sidor同样参与过Dota 2项目,个人简介是“正在造AGI,一行代码接一行代码”。

在路透社的消息中,提到给Q*提供庞大的计算资源,能够解决某些数学问题。虽然目前数学能力仅达到小学水平,但让研究者对未来的成功非常乐观。

另外还提到了OpenAI成立了“AI科学家”新团队,由早期的“Code Gen”和“Math Gen”两个团队合并而来,正在探索优化提高AI的推理能力,并最终开展科学探索。

三种猜测

关于Q*到底是什么没有更具体的消息传出,但一些人从名字猜测可能与Q-Learning有关。

Q-Learning可以追溯到1989年,是一种无模型强化学习算法,不需要对环境建模,即使对带有随机因素的转移函数或者奖励函数也无需特别改动就可以适应。

与其他强化学习算法相比,Q-Learning专注于学习每个状态-行动对的价值,以决定哪个动作在长期会带来最大的回报,而不是直接学习行动策略本身。

第二种猜测是与OpenAI在5月发布的通过“过程监督”而不是“结果监督”解决数学问题有关。

但这一研究成果的贡献列表中并未出现Jakub Pachocki和Szymon Sidor的名字。

另外有人猜测,7月份加入OpenAI的“德扑AI之父”Noam Brown也可能与这个项目有关。

他在加入时曾表示要把过去只适用于游戏的方法通用化,推理可能会慢1000被成本也更高,但可能发现新药物或证明数学猜想。

符合传言中“需要巨大计算资源”和“能解决一定数学问题”的描述。

虽然更多的都还是猜测,但合成数据和强化学习是否能把AI带到下一个阶段,已经成了业内讨论最多的话题之一。

英伟达科学家范麟熙认为,合成数据将提供上万亿高质量的训练token,关键问题是如何保持质量并避免过早陷入瓶颈。

马斯克同意这个看法,并提到人类所写的每一本书只需一个硬盘就能装下,合成数据将远远超出这个规模。

但图灵奖三巨头中的LeCun认为,更多合成数据只是权宜之计,最终还是需要让AI像人类或动物一样只需极少数据就能学习。

莱斯大学博士Cameron R. Wolfe表示,Q-Learning可能并不是解锁AGI的秘诀。

但将“合成数据”与“数据高效的强化学习算法”相结合,可能正是推进当前人工智能研究范式的关键。

他表示,通过强化学习微调是训练高性能大模型(如ChatGPT/GPT-4)的秘诀。但强化学习本质上数据低效,使用人工手动标注数据集进行强化学习微调非常昂贵。考虑到这一点,推进AI研究(至少在当前范式中)将严重依赖于两个基本目标:

  • 让强化学习在更少数据下表现更好。

  • 尽可能使用大模型和少量人工标注数据合成生成高质量数据。

……如果我们坚持使用Decoder-only Transformer的预测下一个token范式(即预训练 -> SFT -> RLHF)……这两种方法结合将使每个人都可以使用尖端的训练技术,而不仅仅是拥有大量资金的研究团队!

One More Thing

OpenAI内部目前还没有人对Q*的消息发表回应。

但奥特曼刚刚透露与留在董事会的Quora创始人Adam D’Angelo进行了几个小时的友好谈话。

看来无论Adam D’Angelo是否像大家猜测的那样是这次事件的幕后黑手,现在都达成和解了。

参考链接:
[1]
https://www.theinformation.com/articles/openai-made-an-ai-breakthrough-before-altman-firing-stoking-excitement-and-concern
[2]https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/
[3]https://www.youtube.com/watch?v=ZFFvqRemDv8
[4]https://www.youtube.com/watch?v=Ft0gTO2K85A
[5]https://x.com/cwolferesearch/status/1727727148859797600
[6]https://twitter.com/DrJimFan/status/1727505774514180188

MEET 2024大会定档!

首批嘉宾阵容公布

量子位「MEET2024智能未来大会」正式定档12月14日!点击报名线下参会

李培根院士、360集团梁志辉、小冰李笛、浪潮刘军、昆仑万维方汉商汤科技王晓刚DeepWay田山、千挂科技廖若雪、潞晨科技尤洋、小米集团栾剑、蚂蚁集团杨铭、星动纪元陈建宇等嘉宾已确认出席。

点击“预约”按钮,一键直达大会直播现场!


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
东京追樱花CEO奥特曼王者归来,Ilya出局OpenAI董事会OpenAI 505员工联名逼宫请奥特曼回归,Ilya痛悔赶走CEO!威胁董事会立即解散,否则集体跳槽微软奥特曼归来,敲马斯克竹杠的人加入OpenAI董事会OpenAI深夜变天,CEO奥特曼被炒鱿鱼!联创Brockman辞职力挺,女CTO临时补位日行一善,够吗?突发!“ChatGPT 之父”奥特曼被 OpenAI 董事会罢免深度 | “ChatGPT之父”奥特曼被开除,人工智能行业受冲击奥特曼被OpenAI炒鱿鱼!亲生妹妹控其性侵,开除原因成谜突发!奥特曼被解雇,OpenAI董事会内讧剧情反转?罢免CEO仅一天 奥特曼被OpenAI投资方力挺奥特曼被开除,只是OpenAI危机的开始阿信发长文否认假唱;喜马拉雅回应裁员30%;奥特曼被时代评为年度CEO;王健林拟转让万达投资51%股权...那红豆,那玫瑰OpenAI内讧,奥特曼被驱逐;俄罗斯操作系统Aurora OS 5.0全新UI亮相;.NET 8正式GA | 周热点OpenAI CEO奥特曼回忆被开除那一晚:超级困惑、令人猝不及防OpenAI董事会秒反悔!奥特曼被求重返CEO职位微软拿下OpenAI董事会席位,奥特曼首次回应Q*:不幸的泄密事件亲自指挥亲自部署下云山雾罩的中国外交【突发】奥特曼被AI夺走了工作,以后怪兽靠谁打?OpenAI 首席执行官萨姆 · 奥特曼被董事会解雇OpenAI董事会正考虑新的董事会人选,奥特曼不在其中OpenAI董事会与奥特曼讨论重新担任CEO;马斯克SpaceX星舰第二次试飞失败;小鹏回应深圳一辆P5从楼上坠落丨邦早报“ChatGPT之父”奥特曼被开除之谜95%员工要求奥特曼回归!微软赢麻了,OpenAI董事会名声扫地马斯克上阵,奥特曼被免,“卷”起来的GPT生态圈Altman被曝芯片交易,成宫斗导火索?OpenAI怒甩5100万刀狂买AI芯片8点1氪:B站通报“人肉开盒”案例;山姆·奥特曼将加入微软,OpenAI员工联名要求董事会辞职;杭州新东方遭网红举报处罚结果公布未央播报 | 人民银行等三部门再促“保交楼” 超95%OpenAI员工逼宫董事会让奥特曼回归突发!OpenAI CEO Sam Altman被开除、退出董事会微软拿下OpenAI董事会席位!奥特曼首次回应Q*:不幸的泄密事件。。。“字”得其乐8点1氪:消息称OpenAI董事会与奥特曼讨论重返CEO岗位;马斯克SpaceX星舰发射失败;金山办公回应用户文档被用于AI训练OpenAI CEO奥特曼:AI越强大,更多怪事会出现奥特曼将重新出任OpenAI CEO,董事会同时换血
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。