谁能做出中国版ChatGPT?怎么做?
在 2022 年一整年,本文作者符尧追踪了从 GPT-3 到 GPT-3.5 的全部版本迭代(参见《ChatGPT 的各项超能力从哪儿来?万字拆解追溯技术路线图来了!》),亲眼看到它一步步地从弱到强不断演化。在过去的一个月,他又走访了国内各大高校、研究院、大厂、创业公司、风投,将一些新的想法浓缩在这篇文章里。
秦失其鹿,天下共逐之。 ——— 《史记・淮阴侯列传》
目录
尖端人才的密度:不是一个人集资源带队然后把任务按层级打包分配给底下的人,而是一群顶级的集 science 和 engineering 于一身的人们共同协作。 先进的组织架构:Language 团队与 Alignment 的团队相互合作迭代,然后底下 scaling 团队和 data 团队帮忙提供基础设施,每个 team 都非常小,但目标明确路径清晰,高度集中资源,朝着 AGI 进发
更长的输入框:开始的时候,GPT 3.5 的上下文最长到八千个 token;现在的 ChatGPT 上下文建模的长度似乎已经过万。并且这个长度明显可以接着增长,在融入 efficient attention[5] 和 recursive encoding[6] 的方法之后,context length 应该可以接着 scale 到十万,甚至百万的长度 更大的模型,更大的数据:模型的大小还没有到极限,MoE 可以接着把模型 scale 到 T 的量级[7];数据的大小还没有到极限,人类反馈的数据每天都在增长 多模态:在增加了多模态数据(音频,图片),特别是视频数据之后,总体与训练数据的大小可以再增大两个量级,这个可以让已知的能力接着按 scaling law 线性增加,同时还有可能继续出现新的涌现能力。比如可能模型在看过各种几何形状的图片,以及看过代数题之后,或许会自动学会做解析几何。 专业化:现有的模型在文科上大概相当于研究生水平,但在理科上相当于高中或大一大二的学生水平;已有的工作已经证明我们可以把模型的技能点从一个方向挪到另一个方向,这就意味着即使不做任何 scaling,我们依然可以在通过牺牲其他方面能力的情况下,把模型朝着目标方向推进。比如牺牲掉模型的理科能力,把它的文科能力从研究生推到专家教授的水准。
Log-linear 曲线:一部分能力的增长会遵循 log-linear 的曲线[8],比如说某项任务的 finetuning。随着 finetune 数据的指数增长,模型所对应的 finetune 的任务的能力会线性增长。这部分能力会可预测地变得更强 Phase change 曲线:一部分能力会随着 scaling 继续涌现[9],比如说上文中的模型做解析几何的例子。随着可以被拉满的维度被不断拉满,新的,难以预测的涌现能力会接着出现。 多项式曲线?当模型强到一定程度,与人类 align 到一定程度之后,或许一些能力的线性增长,所需要的数据,会突破指数增长的封锁,而降低到多项式的量级。也就是说,当模型强到一定程度之后,它或许不需要指数级的数据,而是只需要多项式级的数据,就可以完成泛化。这可以从人类的专业学习中观察到:当一个人还不是领域专家的时候,ta 需要指数级的数据来学习领域的知识;当一个人已经是领域专家的时候了,ta 只需要很少量级的数据就自己迸发出新的灵感和知识。
如果希望把模型的输入框从千的量级增长到万的量级,可能只需要增加显卡数量,进行显存优化就能实现。 如果希望接着把输入框从万的量级增长到十万的量级,可能需要linear attention[10] 的方法,因为此时加显存应该也架不住 attention 运算量随输入框长度的二次增长。 如果希望接着把输入框从十万的量级增长到百万的量级,可能需要recursive encoding [11]的方法和增加long-term memory [12]的方法,因为此时 linear attention 可能也架不住显存的增长。
2020 年,初代 GPT 3 训练完成,开放 OpenAI API[13] 2021 年,初代 Codex 训练完成,开放 Github Copilot[14] 2022 年,GPT-3.5 训练完成,以 dialog 数据 finetune 成 ChatGPT 然后发布
并行感知:一个人类研究员一次顺序地读四五篇论文已经是极限,但模型输入框变长之后,可以在极短的时间内并行阅读一百篇论文。这意味着,模型对外部信息的感知能力远超人类一个数量级。 记忆遗传:人类的演化过程中,子代只继承父代的基因,但不继承父代的记忆,这意味着每一次生殖都需要重启一次;在模型的演化过程中,子代可以继承父代的记忆,并且这个继承的程度可控:我们可以设置子代继承 100%,50%,20% 的记忆,或清空记忆,这意味着父代的经验和技能可以不断累积 加速时间:人类相互交流的速率是受到人类说话的物理速度限制的,而模型相互交流的速率可以远快于人类,这意味着模型可以通过相互交流来解决人类数据随时间线性增长的问题;人类演化的过程受到物理时间的限制,模型的演化可以比人类的物理时间快上几个数量级,这意味着模型的进步速度可以远快于人类 无限生命:一个人的生命有限,百年之后终归尘土,但模型的权重只要不丢失,就可以不断地演化
Pretraining 团队与 instruction tuning - alignment 团队之间的对齐:这两者应该是一个相互迭代的过程,pretraining 团队不断地 scale 基础模型,alignment 团队为基础模型做 instruction tuning,同时用得到的结果反向指导 pretraning 团队的方向。 Pretraining / Alignment 团队与 Scaling / Data 团队的对齐:scaling 负责为 pretraining /alignment 做好基础设施,data 做好高质量数据与人类反馈数据。 创业公司与 VC 的对齐:AGI 是一个困难的事情,需要长期的投入,这需要各个方面的人都有足够的耐心和足够高的视野。烧一趟热钱后催产品化然后占满市场的逻辑在大模型时代应该已经不复存在了。大模型的游戏要求 ta 的玩家们有足够高的视野与格局,模型的演化会让有足够耐心的,踏实做事人们在长期得到丰厚的回报,也会让只看短期刻舟求剑的人们一次又一次被降维打击。
彼黍离离,彼稷之苗。行迈靡靡,中心摇摇。 彼黍离离,彼稷之穗。行迈靡靡,中心如醉。 ——— 《诗经・黍离》
[2] https://platform.openai.com/docs/model-index-for-researchers
[3] https://help.openai.com/en/articles/6825453-chatgpt-release-notes
[4] https://blogs.microsoft.com/blog/2023/01/23/microsoftandopenaiextendpartnership/
[5] https://arxiv.org/abs/2302.04542
[6] https://openai.com/research/summarizing-books
[7] https://arxiv.org/abs/2101.03961
[8]https://arxiv.org/abs/2001.08361
https://arxiv.org/abs/2203.15556
[9]https://arxiv.org/abs/2206.07682
[10] https://arxiv.org/abs/2103.02143
https://arxiv.org/abs/2302.04542
[11] https://openai.com/research/summarizing-books
[12] https://arxiv.org/abs/2112.04426
[13] https://platform.openai.com/docs/introduction/overview
[14] https://github.com/features/copilot
[15] https://arxiv.org/abs/2211.03540
[16] https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1
ChatGPT及大模型技术大会
机器之心将于3月21日在北京举办「ChatGPT 及大模型技术大会」,为圈内人士提供一个专业、严肃的交流平台,围绕研究、开发、落地应用三个角度,探讨大模型技术以及中国版 ChatGPT 的未来。
届时,机器之心将邀请大模型领域的知名学者、业界顶级专家担任嘉宾,通过主题演讲、圆桌讨论、QA、现场产品体验等多种形式,与现场观众讨论大模型及中国版 ChatGPT 等相关话题。
点击阅读原文,立即报名。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章