曝OpenAI超级对齐团队解散!
昨天是我作为OpenAI的对齐负责人、超级对齐负责人和执行官的最后一天。
在过去的3年里,这是一段疯狂的旅程。我的团队使用InstructGPT推出了第一个RLHF LLM,发布了第一个可扩展的LLM监督,率先实现了自动化可解释性和弱到强的泛化。更多令人兴奋的东西即将问世。
我爱我的团队。
我非常感谢和我一起工作的许多了不起的人,包括超级联盟团队内部和外部的人。
OpenAI拥有如此多非常聪明、善良和高效的人才。
离开这份工作是我做过的最艰难的事情之一,因为我们迫切需要弄清楚如何引导和控制比我们聪明得多的AI系统。
我加入是因为我认为OpenAI将是世界上做这项研究最好的地方。
然而,很长一段时间以来,我与OpenAI领导层对公司核心优先事项的看法一直不合,直到我们终于到了临界点。
我认为,我们应该把更多的带宽用于为下一代模型做好准备,包括安全性、监控、准备、对抗鲁棒性、(超级)一致性、保密性、社会影响和相关主题。
这些问题很难解决,我担心我们没有走在到达那里的轨道上。
过去几个月里,我的团队一直在逆风航行。有时我们在计算上很吃力,完成这项重要的研究变得越来越困难。
建造比人类更聪明的机器本身就是一项危险的尝试。
OpenAI代表着全人类肩负着巨大的责任。
但过去几年,安全文化和流程已经让位于耀眼的产品。
我们早就应该认真对待AGI的影响了。
我们必须尽可能优先做好准备。
只有这样,我们才能确保AGI造福全人类。
OpenAI必须成为一家安全第一的AGI公司。
对所有OpenAI员工,我想说:
学会感受AGI。
举止要庄重得体,为你们正在构建的东西。
我相信你们可以“传递”所需的文化变革。
我就指望你们了。
全世界都指望着你们。
: openai-heart:」
一位不愿透露姓名的公司内部人士说:“这是一个信任一点一点崩塌的过程,就像多米诺骨牌一张一张倒下。”
没有多少员工愿意公开谈论此事。部分原因是OpenAI以让员工在离职时签署包含非贬损条款的离职协议而闻名。如果拒绝签署,员工就放弃了自己在公司的股权,这意味着可能会损失数百万美元。
但有一名前员工拒绝签署离职协议,以便可以自由批评公司。丹尼尔·科科塔伊洛(Daniel Kokotajlo)于2022年加入OpenAI,希望带领公司实现AI的安全部署,他一直在治理团队工作,直到上个月辞职。
“OpenAI正在训练越来越强大的AI系统,目标是最终全面超越人类智能。这可能是人类有史以来最好的事情,但如果我们不谨慎行事,也可能是最糟糕的事情,”科科塔伊洛说。
两周前,另一位安全研究员威廉·桑德斯(William Saunders)在有效利他主义运动成员的在线聚会场所EA论坛上发表了一篇神秘的帖子,总结了他作为超级对齐团队成员在OpenAI所做的工作。他写道:“我于2024年2月15日从OpenAI辞职。”
将所有这些信息结合起来,至少有7个人曾试图从内部推动OpenAI走向更安全的道路,但最终对其阿尔特曼失去了信心。
需明确的是,这并不意味着OpenAI现在发布的产品将毁灭人类。但接下来会发生什么呢?
微信扫码关注该文公众号作者