Redian新闻
>
OpenAI科学家最新演讲:GPT-4即将超越拐点,1000倍性能必定涌现!

OpenAI科学家最新演讲:GPT-4即将超越拐点,1000倍性能必定涌现!

公众号新闻



  新智元报道  

编辑:桃子
【新智元导读】GPT-4参数规模扩大1000倍,如何实现?OpenAI科学家最新演讲,从第一性原理出发,探讨了2023年大模型发展现状。

「GPT-4即将超越拐点,并且性能实现显著跳跃」。

这是OpenAI科学家Hyung Won Chung在近来的演讲中,对大模型参数规模扩大能力飙升得出的论断。

在他看来,我们所有人需要改变观点。LLM实则蕴藏着巨大的潜力,只有参数量达到一定规模时,能力就会浮现。

Hyung Won Chung将这次演讲题目定为「2023年的大型语言模型」,旨对LLM领域的发展做一个总结。

在这个领域中,真正重要的是什么?虽然「模型扩展」无疑是突出的,但其深远的意义却更为微妙和细腻。

在近一个小时的演讲中,Hyung Won Chung从三个方面分享了自己过去4年从业以来对「扩展」的思考。

都有哪些亮点?

参数规模越大,LLM势必「涌现」


Hyung Won Chung强调的核心点是,「持续学习,更新认知,采取以“规模”为先的视角非常重要」。

因为只有在模型达到一定规模时,某些能力才会浮现。

多项研究表明,小模型无法解决一些任务,有时候还得需要依靠随机猜测,但当模型达到一定规模时,就一下子解决了,甚至有时表现非常出色。

因此,人们将这种现象称之为「涌现」。

即便当前一代LLM还无法展现出某些能力,我们也不应该轻言「它不行」。相反,我们应该思考「它还没行」。

一旦模型规模扩大,许多结论都会发生改变。

这促使许多研究人员能够以一个新的视角去看待这个问题,即推理思路的根本性转变,从「一些方法现在不起作用」,到「一些方法只是在当前不起作用」。

也就是,最新方法可能不适用于当前模型,但是3-5年后,可能变得有效。

有着新颖视角的AI新人,通常可以带做出有影响力研究。那是因为他们不受一种直觉和想法的束缚,即经验丰富的人可能已经尝试过但发现不成功的方法。

Hyung Won Chung表示,自己平时在实验过程中,会记录下失败的过程。每当有了新的模型,他就会再次运行实验,再来查验哪些是成功的,哪些是失败的,以此往复。

这样一来,就可以不断更新和纠正自我认知和理解,适应技术的日新月异。

目前,GPT-3和GPT-4之间的能力仍然存在显著差距,尝试去弥合与当前模型的差距可能是无效的。

那么,已经有了规模的发展性观点后,我们该如何扩大参数规模?

第一性原理看Transformer


迄今为止,所有大模型背后的架构都是基于Transformer搭建的。想必很多人已经对下图的样子熟记于心。

这里,Hyung Won Chung从第一性原理出发探讨Transformer的核心思想,并强调了Transformer内部架构细节并非关注重点。

他注意到,许多LLM的研究者不熟悉扩展的具体操作。因此,这部分内容主要是为那些想要理解大型模型训练含义的技术人员准备的。

从功能性角度来看,可以把Transformer看作带有矩阵乘法一种简洁的序列到序列的映射,并可以进行相应数组转换。

所以,扩大Transformer的规模就是,让很多很多机器高效地进行矩阵乘法。

通过将注意力机制拆分为单独的头,利用多台机器和芯片,并使用GSP MD方法进行无需通信的并行化。

然后借助Jax的前端工具PJ将阵列轴映射到硬件,可以实现大型语言模型的并行化。

预训练模型的规模将跨越数量级,缩放法则是用小规模模型开发的。

1万倍GPT-4,让神经网络学习目标函数


再进一步扩展模型规模时,设想是GPT-4的10000倍,应该考虑什么?

对Hyung Won Chung来说,扩展不只是用更多的机器做同样的事情,更关键的是找到限制进一步扩展的「归纳偏差」(inductive bias)。

总之,扩展并不能解决所有问题,我们还需要在这大规模工程的工作中做更多研究,也就是在后训练中的工作。

你不能直接与预训练模型对话,但它会在提示后继续生成,而不是回答问题。即使提示是恶意的,也会继续生成。

模型后训练的阶段的步骤包括,指令调优——奖励模型训练——策略模型训练,这也就是我们常说的RLHF。

尽管RLHF有着一些弊端,比如奖励模型容易受到「奖励黑客」的影响,还有开放的研究问题需要解决,但是我们还是要继续研究RLHF。

因为,最大似然法归纳偏差太大;学习目标函数(奖励模型)以释放缩放中的归纳偏差,是一种不同的范式,有很大的改进空间。

另外,RLHF是一种有原则的算法 ,需要继续研究,直到成功为止。

总之,在Hyung Won Chung认为,最大似然估计目标函数,是实现GPT-4 10000倍规模的瓶颈。

使用富有表达力的神经网络学习目标函数,将是下一个更加可扩展的范式。随着计算成本的指数级下降,可扩展的方法终将胜出。

「不管怎么说,从第一原理出发理解核心思想是唯一可扩展的方法」。

参考资料:
https://twitter.com/xiaohuggg/status/1711714757802369456?s=20
https://twitter.com/dotey/status/1711504620025942243
https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
宇宙尽头是「计算」!AI大佬Wolfram最新演讲:LLM自主在计算空间探索,奇点降临就是现在现场直击OpenAI开发者大会:GPT-4 Turbo、用户自定义GPT、GPT商店,一切都是硅谷新王的架势曾鸣最新演讲:下一个10年,商业的底层设施变了!(附内部PPT)张瑞敏最新演讲:融入永恒活火的人单合一笑谈邂逅(31)感谢尹鸿祝,为女儿赴美留学牵线搭桥chat gpt 怎么上不去了? 彻底罢工了凯文·凯利最新演讲:凡事先做起来,困惑就少了一大半李彦宏最新演讲:比对手决策更快,你就赢了!OpenAI科学家最新大语言模型演讲火了,洞见LLM成功的关键两首《青海情》红色日记 9.1-10孟晚舟最新演讲:坚实的算力底座,为世界构建第二选择黄奇帆最新演讲:当下的严峻形势,怎么办?10倍性能提升-SLS Prometheus 时序存储技术演进chatGPT之父预言2030年前出现AGI,GPT-10智慧将超越全人类总和!雷军2023最新演讲:想都是问题,干才是答案黄奇帆最新演讲:避免房地产硬着陆,激励消费需要这六招时间的湾 1铅笔凯文·凯利最新演讲:好的事情会慢慢发生,坏的事情会发生得很快GPT turbo 看了没?!这真是大批失业人员在路上。黄奇帆最新演讲:中国人工智能落后美国至少两年,差距还在快速拉大,警惕美欧利用数字规则合围中国……楼继伟最新演讲:各国都在收紧货币抑制高通胀,很可能触发金融危机风险黄奇帆最新演讲:数字经济的发展与竞争,可从五方面改革试验雷军2023最新演讲:别畏难,先干起来再说!曾鸣最新演讲:没有地图的时候自己造指南针!周小川最新演讲:全球经济增速持续放缓;我国风光电储能四大强项为何领先全球?出门问问李志飞最新演讲:不能落地的AI,都是耍流氓芯至科技尹文:拆解架构创新四大路径,打造10倍性价比大模型推理芯片丨GACS 2023林毅夫最新演讲:新结构经济学关于中国式老龄化的18个新见解(附PPT)董宇辉最新演讲:我们想不出一套通用的家庭教育模板,但爱会引导你做一切正确的事情外交部长王毅最新演讲:乘历史大势而上,走人间正道致远雷军 2023 最新演讲:别畏难,先干起来再说GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日凯文 · 凯利最新演讲:凡事先做起来,困惑就少了一大半黄奇帆最新演讲:我国下一阶段开放的五个新任务起飞在雨中黄奇帆最新演讲:三现象,一机遇,发力“四化”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。