Redian新闻
>
Sam Altman点赞!GPT-4o的幕后AI大佬是...

Sam Altman点赞!GPT-4o的幕后AI大佬是...

公众号新闻
 点击订阅,抓住风口

OpenAI春季发布会,发布了最新的AI大模型——GPT-4o,看了发布视频的人都惊呼,科幻电影《Her》中和人谈恋爱的AI助理已经来了。

GPT-4o(“o”代表“全能”)的技术进步和产业价值,科技特训营周四直播已经和大家详细解读。

显而易见的改变是人机交互的再度进步,GPT-4o能够实时处理文本、音频、图像和视频的任意组合,根据官方公布的数据音频对话响应速度仅需232毫秒,达到了我们普通人交流的水平。

OpenAI展示了GPT-4o的多种功能,包括实时翻译、编程助手、AI导师、友好伴侣、诗人和歌手等,迅速成为热门话题。

不少媒体也开始挖掘GPT-4o开发者的信息,想不到OpenAI CEO Sam Altman在X(原Twitter)上大方公布了这一切的幕后功臣。

Altman转发了一位印度工程师Prafulla Dhariwal的分享,并评论:“如果没有Prafulla Dhariwal的远见、才华、信念和坚持,GPT-4o就不会诞生。他和其他许多人的努力,促成了这场计算机使用方式的革命。

GPT-4o的新闻相信大家已经看得差不多了,详细解读王煜全老师已经在科技特训营分享。

今天我们为大家整理详细资料,介绍一下这位GPT-4o的幕后功臣。

印度到美国的超级学霸

Dhariwal出生于印度浦那,从零星的资料可以了解到他的学霸程度。

2009年获得印度政府颁发的国家人才搜索奖学金,并在国际天文学奥林匹克竞赛中获得金牌。2012年和2013年,Dhariwal在国际数学奥林匹克竞赛和国际物理奥林匹克竞赛中连获金牌。

Dhariwal在一则采访中表示:“在十二年级时(相当于高三阶段),我全年都在学习,因为我想在IIT学习。但现在,我非常高兴能够被MIT录取。”

完成高中学业后,Dhariwal获得了入学麻省理工学院(MIT)的机会,攻读计算机科学和数学专业,从2013年到2017年期间,Dhariwal在MIT完成了本科教育,并获得全额奖学金。

职业生涯与成就

Dhariwal于2016年5月以研究实习生身份加入OpenAI,2017年正式成为研究科学家,专注于生成模型和无监督学习。

2017年OpenAI刚成立一年,只是笼罩在马斯克光环下的初创机构,现在回头看Dhariwal早就站在了AI变革的最前沿。无论是眼光还是运气,他在OpenAI与牛人为伍,最终也成绩斐然。

Dhariwal是GPT-3、DALL-E 2、Jukebox和Glow的共同创造者之一。其中,Jukebox项目是一款生成音乐的模型,可以创作出高保真且多样化的歌曲;Glow模型则能够快速生成高分辨率图像。

当然,最值得称道的还是他参与提出了“Scaling Law”,这个AI领域反复提及,大有成为AI摩尔定律的新规律。

"scaling law"简单说就是AI模型的性能随着模型规模变大而变大(这里的规模指参数数量、训练数据量、计算资源)。

正是这个法则让无数开发者和企业愿意砸大钱训练AI,因为它让大家认识到“充值就会变强”,可以说就是AI界的信仰之源。

除了这种原理上的发现,Dhariwal还参与了扩散模型的开发,这条技术路线在图像合成方面超过了生成对抗网络(GAN),成就了今天各种AI图片企业。

除此之外,他的技术贡献还有开发了防止自编码器问题的变分有损自编码器(Variational Lossy Auto-encoder),以及强化学习中的近端策略优化(PPO)和应用于形式化定理证明的GamePad...在AI领域广泛参与了技术研发。

Omni团队的诞生

作为Omni团队的负责人,Dhariwal在GPT-4o的开发中扮演了关键角色。他在X上发文说:“GPT-4o(o代表‘全能’)是Omni团队的首款原生全多模态模型。这次发布是全组织的巨大努力,但我想特别感谢一些出色的团队成员,正是他们使这个神奇的模型成为可能。

这条动态得到了OpenAI CEO Sam Altman和联合创始人Greg Brockman的转发和称赞。

另一位联合创始人Brockman也赞扬了Dhariwal是让团队坚信多模态能力的人,他花了18个月时间,与OpenAI其他团队合作,才促使GPT-4o诞生。


GPT-4o其他团队成员及贡献清单


James :负责训练内容,涵盖图像、音频、数据集成和后期培训。

Jamie Kiros:在开发模型的视觉感知方面发挥了关键作用。

Rown:专注于视频处理技术,使模型对视频输入的交互自然流畅。

Alex Conneau:提出并实施了 HER 愿景的基础。

Gabeeegoooh 和 Ishaan:负责扩展规律的工作,确保多模态集成后的卓越表现。

Heewoo Jun 和 Jing Li:确保模型的图像和 3D 生成技术出色。

Casey Chu:最早加入项目,贡献了基础工作。

Mark Chen:在项目中提供了持续的精神支持。

Michelle Kim:负责人才招聘,确保团队拥有顶尖的专家。

其他贡献者:Jhyuxm、Huiwen Chang、Ajabri、Mcleavey、Yukuwu 等,他们在多模态集成和相关工作中发挥了重要作用。


根据Dhariwal的说法,OpenAI早就有意打造这样一个Omni全能大模型。然而一年多之前,经过多次尝试,没有一次能让最大的GPT成功地完成多模态运行。幸运的是,团队成员齐心协力,用出色的能力攻克了种种难题,使GPT-4o成为可能。

为什么全模态端到端这么难,我们也做了些研究,除开训练AI时要将声音、视频、语言等数据统一到一起,更困难的是如何让AI在生成内容时使用同一个模型解决问题。

从AI开发者,各种AI论文中我们也看到这个问题的困难之处,有的开发人员感叹“自己确实想象不到生成部分如何将不同模态统一到一起”。

当然,前沿问题不是只有OpenAI一家在研究,这周四的直播中王煜全老师在特训营直播中分享了最新的研究成果,欢迎大家观看直播回放了解。

随着OpenAI首席科学家Ilya Sutskever官宣离职,不少人都担心这家公司能否继续抱住AI领头羊的位置。

如今这个团队还在不断有人站出来引领风潮,自然打消了不少人疑虑,不过GPT-4o到底有多少领先性,不能光从技术的角度来看,还要站在产业格局的角度进行分析。

更多深度分析欢迎加入前哨科技特训营了解,我们也会继续关注AI产业的前沿洞见,分析AI多模态的下一个目的在哪!

【前哨科技特训营第四季前瞻】


1. 前哨科技特训营直播课程第四季(2023年)共50讲+,除此之外还有5节加餐+公开课。

2. 每讲承诺为1小时视频内容,实际平均时长为2小时。

3. 每周四晚八点准时直播,会员可无限次观看回放。

4. 新入会员,可以无限次回看之前所有视频课程。

5. 成为会员即可使用【AI王煜全】,最新AI大模型开发的专属科技分析助手

6. 每周组织【前哨·创新启发局】,链接科技/产业一线人士,打开技术/应用前沿视野

7. 优先获取全球科技产业一线游学、访问机会,接触科技/产业专家,获取最新、最前沿的趋势洞察,人脉链接

8. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,线下活动需另行支付差旅成本,请您理解。

课程咨询】
请加“创新地图助手”:
微信:innovationmapSM


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【五律】 春寄 (六麻)交卷!GPT-4o 大战国产 AI 模型写 2024 高考作文,今年谁能交出「满分作文」苹果一夜重塑iPhone!GPT-4o最强助力!库克:开启苹果AI新时代!Sam Edelman 这双小白鞋打折了,又轻又软,还是矮子乐GPT-4o的“类人”响应速度刺痛Siri?今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?已婚男子「出轨」AI女友,无法自拔!GPT-4o发布在即,年入十亿美金产业爆发“她”来了!GPT-4o让AI陪伴创业公司无路可走?微软加速AI生产力革命!GPT-4o 重塑 Windows,奥特曼“意外闪现”爆料下一个重要模型鸡同鸭讲深夜重磅!GPT-4o 正式发布:视频语音交互丝滑到吓人,还免费可用“GPT-5”发布时间曝光!GPT-3是幼儿,GPT-4像高中生,新一代大模型将达博士水平华为重夺中国大陆智能手机市场第一/支付宝推出 AI 办事小助手/Altman 称 GPT-5 性能远超 GPT-4吃瓜Sam’s club 买菜配货今天起,这个重磅功能向 ChatGPT Plus 用户全面开放!GPT-4.5 疑似泄露, Altman 在线「吃瓜」免费!免费!免费!GPT-4o是什么?是你想要的一切重磅!中国大模型头名易主!GPT-4o和Yi-Large并列第一!华为重夺中国大陆智能手机市场第一/Altman 称 GPT-5 性能远超 GPT-4/OPPO 回应暂停 XR 探索一事Sam Bankman谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破SoraChatGPT们的幕后先驱,斯坦福教授Manning的四十年NLP生涯OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折GPT微软昨夜AI全家桶狂飙:GPT-4o上云,纳德拉现场表白OpenAI,Altman剧透新模型刚刚,微软掀起生产力革命!GPT-4o 重塑 Windows,奥特曼登场剧透新模型微软一夜干翻苹果Mac!GPT-4o装进全家桶,微软把全世界PC都AI了苹果WWDC最新解读!GPT-4o加入!Siri大变样!昇腾社区回应网传华为发布会大模型生成图片系人工操控;Sam Altman:新款语音模型GPT-4o尚未发货丨AIGC日报谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索!OpenAI掌门人最新专访:GPT-4o让我爱不释手 下代大模型可能不叫GPT-5GPT-4o成全球网友新玩具,秒秒钟纸质原型转录初始HTML,网友:谷歌你是一点流量摊不上啊ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5迟来的读书心得每秒执行超40万亿次运算!微软推出内置GPT-4o的全新AI PC“硬刚”,苹果将会如何应对?PC市场是否将迎来换机潮?首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了OpenAI CEO Sam Altman斯坦福闭门会!GPT-5将远超GPT-4!欣闻上海人口负增长(人民日报1995年4月5日)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。