“大模型之都”，争夺战开打

科技

2023-08-19 05:08

作者 | 南风窗记者赖镇桃

暑期上映的好莱坞大片《碟中谍7》里，60岁的阿汤哥依然能打，只是这次他对抗的反派，是存在于虚拟世界却又无处不在的人工智能“智体”。

银幕之外的现实世界里，人和AI也在激烈博弈。7月份，好莱坞爆发了63年来最大规模的行业罢工，16万演员、编剧集体愤怒地走上街头，抗议数字人、生成式剧本“谋杀”他们的工作。

很快，AI也作出了反击：人不愿意拍电影，那就我上吧。

两部重量级影片《芭比》和《奥本海默》热映之际，一段《芭比海默》的预告片横空出世：打扮精致的芭比背负“拯救全人类”的使命，日以继夜在实验室奋斗，最终空中升起一朵粉色的蘑菇云。两分多钟的片子，从对白、演员、运镜、剪辑、配音全由AI一手包办。

《芭比》剧照

人工智能，正在不断突破人类想象力的边界，而生成式AI的“大脑”—大模型，也成为科技圈热烈追逐的新风口。

每一项新技术的兴起，必然伴随着大量投资和企业的涌入。无论是在北京、上海，还是在深圳或者杭州，不少人都开始进入这个领域。那么，到底谁可能成为未来的赢家，还是赢家会有很多？

集聚和竞争

“OpenAI的成功，首先是技术理想主义的胜利。”搜狗创始人王小川曾在朋友圈如此总结。

回溯ChatGPT的养成，也确实始于硅谷极客的“放肆做梦”。OpenAI的创始人、现任CEO阿尔特曼，像大多数硅谷大佬一样，也拥有天才少年般的履历：8岁会编程和拆解电脑，考上斯坦福的计算机专业后，安分读书是不可能的，念了两年就辍学和同学一起创业，做出来的软件以4300万美元被收购，让他赚到了人生的“第一桶金”。

阿尔特曼

28岁时，他被“钦点”为硅谷顶级孵化器Y Combinator的总裁，给公司物色项目的同时还个人入股了两家创新企业，30岁就实现了财富自由。有多自由呢？用他自己的话来说就是“比我需要的钱还多”，以至于他要专门雇用几十个人来打理自己和家族的财产。

这个时候，追求物质和财富已经不能带来多少新鲜感，儿时的梦想反而击中了他：在一个新的世界里，机器替代人完成大部分的工作，从工作中解放出来的人能收到现金补贴，人工智能不是冷冰冰的机器，而是“人的意志的延伸”。

但在2015年，AI的技能点还停留在语音交互、人脸识别、下围棋这些单项任务，阿尔特曼想实现的是通用人工智能（AGI），也就像科幻小说和电影所展现的类似人类的人工智能。

也在同年，谷歌收购后来打败李世石的深蓝，在AI领域大有一家独大之势，阿尔特曼和马斯克嗅到一丝技术威权的威胁，于是拉拢到一批顶级“码农”，发起非营利的人工智能实验室OpenAI，“让人类以安全的方式构建通用人工智能”。因此可以说，硅谷在AI领域的智力、资本等资源集聚，以及大厂之间的互相竞赛，是AI取得突破性进展的重要推动因素。

成立初期，OpenAI实验室尝试了不少项目，甚至还包括教机器人如何解魔方，但都没找到通往AGI的具体道路。

直到2017年，OpenAI的研究人员才确信，AI学会像人一样读和写，才能像人一样理解和思考，打开AGI的“秘钥”最有可能是大语言模型。简单来说，大语言模型的逻辑就是一股脑先给AI投喂一波学习资料，让它自己学习，训练出一个初始模型，然后让它做题，再用“标准答案”来检验，碰到做错的题就反向微调模型的参数，通过“预训练+精调”提升模型的准确率。

这样的过程，又被人调侃为像大模型“炼丹”：只有不断提高参数和数据规模，达到一个质变的阈值，大模型才会猛然“顿悟”，更专业来说是出现“涌现”效应，相当于模型原本答题得分只有60分上下，给它堆更多的参数和数据“上补习班”都没长进，但堆到一定数量后，模型就突然“开窍”，答题准确率一下子从60分提升到了90分，而且给它一点其他科目的学习资料，它在新的领域就无师自通了。

就拿OpenAI的GPT来说，初代和二代一直被谷歌的BERT吊打，GPT-3将参数由原来的15亿猛堆到1750亿，表现上堪称惊艳逆袭。

OpenAI

不过，“大力出奇迹”的缺点正在于烧钱。虽然还没有专业的盖棺定论，但大模型要跨过“涌现”的门槛，参数规模普遍要触达千亿级，这背后是需要强大算力支撑的。当时GPT-3训练一次，在算力上就要花费460万美元，让OpenAI不得不“放下身段”转为营利机构，投靠微软。

但无疑，GPT的“惊险一跃”，也是AI发展史上的一大步。

“传统方式是，一个应用要开发一个模型，比如做语义理解、信息提取，或者人脸识别、指纹识别，不同任务都要一一适配不同的模型和应用。但现在一个大模型就可以解决这几十上百个任务，也就是AI研发从碎片化走向集成化。”厦门大学信息学院教授纪荣嵘对南风窗记者说。

方向和应用场景

对大模型的追捧一直在持续，甚至有人说，大模型即使有泡沫也是美丽的泡沫。

“我们已经到达了生成式AI的引爆点”“生成式AI会重塑所有行业”，在英伟达CEO黄仁勋的演讲里，你能看到形容大模型的各种美好词汇。高盛也在研究报告中推算，生成式AI可以在10年内将全球GDP提高7%，全球3亿岗位将被自动化取代。

黄仁勋

同时，超然冷静的也大有人在。最明显的是投资人更谨慎了。“与国外相比，国内AIGC目前融资频次与体量有一定差距，大部队还处在缺乏明确逻辑和标的的观望状态。”一位专业投资人几个月前曾这样讲道。

“一冷一热都有对应到现实，”纪荣嵘对南风窗表示，“按照大模型的发展趋势，肯定会颠覆人工智能的创新生态，业界和投资圈不可能不跟进。但现在市场上很多模型不论技术过不过关都号称大模型，水分太高，所以也要谨慎。”

当行业洗牌的齿轮开始转动，更多大模型的玩家需要回归价值尺度。

一方面，一些外在标准就能筛掉一批套壳的“大模型”。强大的算力、巨量的行业数据，是训练大模型的先决条件，同时国内已经推出大模型评测，只有真正去打榜，才能准确判断模型有多大、性能有多好。此外，国内还有不少企业，都是基于开源模型做微调，也称不上有自己的大模型。

另一方面，模型的打分又很大程度依赖主观判断。上海交通大学软件学院院长姚建国告诉南风窗：“AI的对话是否流畅，生成的图片是否有瑕疵，这些都要靠用户体验来作出评价，所以ChatGPT现在看来这么成熟，一大原因就在于开放式测试与优化，通过大量的用户访问、收集用户体验来优化模型参数。”

狂欢过后，大模型的缔造者也开始思考向何处去的问题。“巨型人工智能模型的时代将要结束，我们要用新的方式让它变得更好。”阿尔特曼在4月份的MIT活动上讲道。

GPT-4

GPT-4已经将训练大模型的“报名费”抬到了1亿美元，从训练效果来看，参数堆到5000亿以上就会出现边际效应递减，一味追求更大的参数、更多的数据似乎已经难以为继。

姚建国认为，到明年年中，厂商应该会进入相对理智的阶段，去分析自己为什么要做大模型，要做哪些行业，解决什么问题，能够给技术带来什么提升。无论是小模型还是大模型，用在最适合自己的场景里才能体现价值。

但整体而言，大模型留给外界的更多还是未知：“涌现”究竟如何产生，AI会朝什么方向进化，未来的组织形态会是大模型一统天下还是大小模型彼此共生，都有待时间来回答。

“落地”很重要

2022年11月，ChatGPT的横空出世，一扫硅谷上上下下蔓延的“寒气”。而实际上，更早前的9月，红杉资本一篇名为《生成式AI：一个创造性的新世界》的重磅文章，就在业界广泛流传，里面第一次引出了生成式AI的概念，同时预测，生成式AI至少可以提高10%的效率或创造力，有潜力产生数万亿美元的经济价值。

就举一个例子：Midjourney，全球最火的AI绘图网站，每年一亿多美元营收，整个公司只有11位全职员工：1个创始人，8个技术开发，1个法务和1个财务。而全球最大的传统商业图片库，Getty Images，年收入9.26亿美元，员工1700人。直白来说，两者的人均产出比是17比1。

Midjourney

落到城市层面，抢滩AI大模型，不仅是对AI产业的升级激活，还能和大数据、云计算、半导体、基础软件等产业形成协同，不但拉动经济，还能使之转型升级。

企业忙着“百模大战”，城市在大模型的竞速业已开启。

今年5月，中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示，国内10亿参数以上的大模型已发布79个，14个省市都有团队在开展大模型研发，北京、广东、浙江、上海站在第一梯队。

值得关注的是，北京牢牢占据着头部地位，已发布的大模型占了全国的大壁江山。清华旁的中关村，更是国内大模型“宇宙中心”般的存在，这里有巨头—百度和智源研究院，有积极投身大模型的二次创业者—搜狗创始人王小川、美团创始人王慧文、京东前AI掌门人周伯文，还有创新工场掌舵人李开复；中关村之外，还有腰部大厂的入局—360、第四范式、昆仑万维等，北京称得上是国内大模型密度最高的城市。

“大模型本身属于人工智能产业，所以大模型的城市格局，基本接近于AI产业的区域分布。一个城市如果没有领军企业的带动，就很难形成一个集群。”姚建国告诉南风窗。

入局大模型，不同城市也有各自的禀赋。

北京，多年来就是国内的“AI第一城”，学术资源和人才资源的加持不可低估。上海，算力硬件是强项，壁仞科技、天数智芯、燧原科技，都是能为大模型提供算力的国产GPU公司，英特尔、英伟达的中国区总部也都坐落上海。深圳擅长顶层应用，“北京做的是0到1的事情，上海做的是从1到10的事情，深圳则是做从10到100的事情”，业内人士曾这样形容。