大逃杀里的中国AI大模型

2023-08-17 10:08

关注星海情报局视频号，看更多精彩视频！

7月份，微软公布了Office 365 Copliot的企业版价格，30美元/月，我看完第一个感觉是有点吃惊：外界没那么关心微软的可能不太清楚，但懂To B业务基本都知道，微软这些年B端定价惯常稳如老狗，割起各大公司的肉来刀法堪称精准，它说敢卖30美元一个月，那就是确实能卖30美元一个月，而这已经明显高于了此前外界所预估的价格。

换言之，微软对Copliot的定价，从某种意义上说，就意味着AI应用落地的时代确实是来了，而且已经相当卖得上价。

相比之下，国内AI大模型的落地应用，明显还缺乏成熟的市场化产品，但也基本都已经开始进入内测，只是因为用户习惯不同而采取了不同的模式，走入收费阶段的速度相对慢了一些。

关于中美AI大模型之间的差距和优劣，业界讨论得很多，几乎所有切入相关领域的人都会被问到这个问题，但大家的看法很难说得上统一。比如李彦宏曾经说文心一言离OpenAI只有两个月差距，王小川对此的评价是：那估计我们没在同一个世界。

根据星海的不完全统计，不到一年的时间，国内的大模型已经超过了120个，中美两国大模型公司占了全球80%。中美AI大模型到底有几年的差距，中国大模型真的落后了吗？中美AI竞争的路线又有何不同？中国短短半年里涌现出的百家大模型企业混战，到底打到了什么程度？

百模大战没有硝烟

我上半年参加过几次AI的会，开门的闭门的都有，大家提的最多的前些年AI是真的不赚钱，连融都未必能融得到钱，有一点全跑自动驾驶那头去了，其他的都已经死了不知道第几轮。

但自从ChatGPT横空出世，情况就不一样了。爆火的大半年里，AI大模型的技术水平未尝就真的能有什么大爆炸，但商业上的环境确实是有点“病树前头万木春”的意思——活了。

但也没想过，这么快就能活得跟Copliot一样卖出30美元一个月的价钱。

根据星海情报局不完全统计，中国目前已经有超过120家机构或企业发布了自己的AI大模型，其中10亿参数规模以上的大模型就已经有79个，有20个是通用领域的大模型，基本来自互联网大厂和科研院所，其余均为垂直领域的产业应用大模型。毫无疑问，中国的AI产业正在进入一场名副其实的“百模大战”，而且已经有了逐渐开始向垂直领域深入分化的趋势。

上下滑动查看更多

「中国AI大模型点将录」

A list for China's LLMs

序号	公司	大模型	省市	类别
1	360	智脑，一见	北京	通用
2	IDEA研究院	封神榜MindBot	广东深圳	通用
3	OpenBMB	CPM，CPM-Bee	北京	通用
4	阿里云	通义千问，Qwen-7B	浙江杭州	通用
5	艾写科技	Anima	浙江杭州	营销
6	百川智能	baichuan-7B,Baichuan-13B	北京	通用
7	百度	文心一言，灵医Bot	北京	通用
8	北京大学信息工程学院	ChatLaw	北京	法律
9	北京交通大学	致远	北京	交通
10	北京语言大学	桃李	北京	教育
11	贝壳	BELLE	北京	商业
12	超对称技术公司	乾元	北京	金融
13	出门问问	序列猴子	北京	营销
14	创业黑马	天启	北京	创投
15	达观数据	曹植	上海	金融、工业
16	大经中医	岐黄问道	江苏南京	医疗
17	第四范式	式说	北京	客服
18	电科数字	智弈	上海	水利
19	电科太极	小可	北京	政务
20	电信智科	星河	北京	通信
21	东北大学	TechGPT，PICA	辽宁沈阳	科研
22	度小满	轩辕	北京	金融
23	复旦大学	MOSS	上海	科研
24	港中文深圳	华佗，凤凰	广东深圳	医学
25	硅基智能	炎帝	江苏南京	文旅
26	国家超级计算天津中心	天河天元	天津	通用
27	哈尔滨工业大学	本草，活字	黑龙江哈尔滨	医学
28	孩子王	KidsGPT	江苏南京	教育
29	好未来	MathGPT	北京	教育
30	恒生电子	LightGPT	浙江杭州	金融
31	虎博科技	TigerBot	上海	金融
32	沪渝人工智能研究院	兆言	重庆	科研
33	华东师范大学	EmoGPT，EduChat	上海	教育
34	华南理工大学	扁鹊，灵心SoulChat	广东广州	医学
35	华为	盘古，盘古气象，盘古-Σ	广东深圳	工业
36	慧言科技+天津大学	海河·谛听	天津	科研
37	佳都科技	佳都知行	广东广州	交通
38	今立方	12333	福建厦门	政务
39	京东	言犀	北京	商业
40	科大讯飞	星火	安徽合肥	通用
41	昆仑万维	天工	北京	客服
42	澜舟科技	孟子	北京	金融
43	浪潮信息	源	山东济南	通用
44	乐言科技	乐言	上海	客服
45	理想科技	大道Dao	北京	运维
46	理想汽车	MindGPT	北京	工业
47	联汇科技	欧姆	浙江杭州	通用
48	聆心智能	CharacterGLM	北京	游戏
49	蚂蚁集团	贞仪	浙江杭州	金融
50	美亚柏科	天擎	福建厦门	安全
51	蜜度	文修	上海	媒体
52	鹏城实验室	鹏城·脑海	广东深圳	科研
53	奇点智源	Singularity OpenAPI	北京	通用
54	麒麟合盛	天燕AiLMe	北京	运维
55	企查查	知彼阿尔法	江苏苏州	商业
56	清博智能	先问	北京	农业
57	清华大学	ChatGLM，NowcastNet	北京	科研
58	清睿智能	ArynGPT	江苏苏州	教育
59	容联云	赤兔	北京	客服
60	瑞泊	VIDYA	北京	工业
61	赛灵力科技	达尔文	广东广州	医学
62	商汤科技	日日新	上海	通用
63	上海交通大学	K2，白玉兰	上海	科研
64	上海科技大学	DoctorGLM	上海	医学
65	上海人工智能实验室	书生·浦语, OpenMEDLab浦医	上海	通用&医疗
66	深思考人工智能	Dongni	北京	媒体
67	实在智能	塔斯	浙江杭州	客服
68	数慧时空	长城	北京	地球科学
69	数说故事	SocialGPT	广东广州	社交
70	思必驰	DFM-2	江苏苏州	工业
71	拓尔思	拓天	北京	媒体
72	拓世科技	拓世	江西南昌	金融
73	台智云	福尔摩斯FFM	台湾	工业
74	腾讯	混元	广东深圳	通用
75	天云数据	Elpis	北京	金融
76	网易伏羲	玉言	广东广州	通用
77	网易有道	子曰	北京	教育
78	微盟	WAI	上海	商业
79	维智科技	CityGPT	上海	公共服务
80	文因互联	文因	安徽合肥	金融
81	西北工业大学+华为	秦岭·翱翔	陕西西安	工业
82	西湖心辰	西湖	浙江杭州	科研
83	稀宇科技	MiniMax	上海	通用
84	香港科技大学	罗宾Robin	香港	科研
85	小米	MiLM-6B	北京	商业
86	晓多科技+国家超算成都中心	晓模型XPT	四川成都	客服
87	携程	问道	上海	文旅
88	新华三H3C	百业灵犀	浙江杭州	工业
89	星环科技	无涯、求索	上海	金融
90	循环智能	盘古	北京	客服
91	阳光保险集团	正言	广东深圳	金融
92	医联科技	medGPT	四川成都	医学
93	医疗算网	Uni-talk	上海	医学
94	印象笔记	大象GPT	北京	媒体
95	用友	YonGPT	北京	企业服务
96	有连云	麒麟	上海	金融
97	宇视科技	梧桐	浙江杭州	运维
98	元象科技	XVERSE-13B	广东深圳	通用
99	阅文集团	妙笔	上海	文旅
100	云从科技	从容	广东广州	政务
101	云天励飞	天书	广东深圳	政务
102	云知声	山海	北京	医学
103	长虹	长虹超脑	四川绵阳	媒体
104	浙江大学	启真，TableGPT，PromptProtein	浙江杭州	医疗，文档处理
105	知乎	知海图	北京	媒体
106	智慧眼	砭石	湖南长沙	医学
107	智媒开源研究院	智媒	广东深圳	媒体
108	智源人工智能研究院	悟道·天鹰，悟道·EMU	北京	通用
109	智臻智能	华藏	上海	客服
110	智子引擎	元乘象	江苏南京	客服
111	中工互联	智工	北京	工业
112	中国电信	TeleChat	北京	通信
113	中国电子云	星智	湖北武汉	政务
114	中国科学院成都计算机应用研究所	聚宝盆	四川成都	金融
115	中国科学院计算技术研究所	百聆	北京	科研
116	中国科学院自动化研究所	紫东·太初	北京	通用
117	中国联通	鸿湖	北京	通信
118	中国农业银行	小数ChatABC	北京	金融
119	中国移动	九天	北京	通信
120	中科创达	魔方Rubik	北京	工业
121	中科闻歌	雅意	北京	媒体
122	中央广播电视总台	央视听	北京	媒体
123	追一科技	博文Bowen	广东深圳	客服
124	字节跳动	Grace	北京	通用
125	左手医生	左医GPT	北京	医学
备注：本表按照公司首字母排序，无高低优劣之分信息来源：研报、公司官网、新闻报道、星海整理

这里简单做个科普，我们目前所说的大模型，通常来说的分类是两种，一种是通用大模型，模板就是ChatGPT，可以聊天，问答、做题，特点是比较泛化，干什么都成，但相对来讲不够对某一个产业深入精通。

所以有了第二种，行业大模型，也叫垂直类大模型。典型的比如华为的盘古，京东的言犀，都是直接面向产业，更聚焦应用，强调帮助企业进行生产活动和降本增效能力的工具。从定位和特点上讲，行业大模型更类似于我们所熟悉的企业服务软件或工业软件，只不过现在升级成行业AI了。

目前，针对金融、医疗、政务及公共服务、科研、工业、客服等领域服务的大模型数量相对较多。地域分布上，北京占了半壁江山，其次是上海、广深、杭州和江苏。

毫无疑问，这一轮AI大模型的发展已经形成了明确的产业趋势。而根据这些大模型背后的研发团队来看，也可以分为三类：

一是大厂自研。百度的文心一言，阿里的通义千问，华为的盘古，腾讯的混元，京东的言犀，字节的火山方舟，蚂蚁集团的贞仪，小米的MiLM-6B等等……都可算作此列。

互联网浪潮里成长起来的科技大厂，包括软硬件厂商，即便暂时还没有，但也不可能永远都不在大模型领域进行布局。还有通信业三巨头，移动、联通、电信都有自研大模型。很多大厂和巨头出于自身的数据安全需求，只能走自研路线，这些厂商一遍要根据自身业务协同出发进行相关研发，另一边也可以选择直接收购。而收购的标的，则主要来源于下面的第二类。

二是独立创业团队。其中不乏颇具技术实力的明星创业者入局，还有一些是已经功成名就过的大厂背景连续创业者。比如搜狗创始人王小川，就在五道口的搜狐大厦二层对外官宣了“百川智能”。官宣的时间是2023年4月10日，如果你同时有王小川和王慧文的微信，就会发现仅仅四天之前，王慧文也在搜狐网络大厦，他创办的AI企业光年之外的新办公室就在这里，搬进来的第一天他发了一条朋友圈：“新办公室第一天，切个蛋糕。”

王小川的人工智能梦想大约萌芽于成都七中，他16岁参与老师谢晋超和当时中科院成都所的张景中一起组建的“几何定理机器证明课题研究组”，做成了在计算机用吴文俊消元法实现初等几何定理的全部机器证明，拿了“亿利达青少年发明奖”，奖项发起人和最后给王小川颁奖的人，都是杨振宁。而王小川做成的这个证明，所涉及的是中国人工智能领域最重要的基础理论之一，他可能是如今功成名后再出发的企业家中，离人工智能学院派们几乎最近的一个“技术流”了，百川智能的背后也有着清华一脉力度不小的支持。

三就是学院派，无论是科研院所还是各大高校，都不可能不做这方面的研究，但这些团队的组织构成和战略目标大多更偏学术一些，偏向应用层面的则大多还会找大厂或其他创业团队进行合作。其中比较引人注目的，比如今年初复旦大学计算机学院团队发布的MOSS大模型，清华的ChatGLM，还有中科院自动化所的紫东·太初。

大模型爆火满打满算也就不到一年，但噼里啪啦出了一百多个团队，百模大战已经摆在台面上了，即使远没有当初“百团大战”那么搞得沸反盈天，但也已经足够让有些人产生忐忑甚至不满。

中国人这些年见了太多狂飙之后的落寞与一地鸡毛，多少有点PTSD。但站在一个产业观察者的角度来说，一个残酷的事实是，任何国家的产业的竞争力从来就是这么跑出来的，没有这样雨后春笋般冒出来的企业和密集的投资，哪里来的产业崛起和龙头腾飞？

往近了说，中国新能源汽车产业能有今天的成就，不知道埋了多少当年的“造车新势力”，中国手机产业的腾飞也不知道一路死掉多少山寨机。而往远了说，美国半导体产业浮沉小一百年，也绝对算得上一将功成万骨枯。

任何产业想发展起来，最初的起点都是拿钱与人去堆，才留得下技术、经验，和足以支撑起一个行业的人才。百模大战能打起来，本身就已经是中国AI大模型竞争力的一种体现，如今中美两国大模型公司加起来占了全球的80%还要多，绝大部分国家甚至已经没有资格坐上这个牌桌。

巨头的游戏

AI大模型的创业团队很多，但大多数可能留不下来。

——绝大多数人做出这个判断的原因在于成本。国盛证券曾经估算，GPT-3训练一次的成本约为140万美元，对于一些更大的LLM模型，训练成本介于200万美元至1200万美元之间。

按照今年1月的平均用户访问量计算，每天约有1300万独立访客使用ChatGPT，对应的芯片需求大约是3万多块英伟达A100，仅这一项的初始投入成本就要8亿美元，每天光电费至少5万美元左右。而根据Analytics India Magazine的一份报告估算，ChatGPT的单日运营成本大约是70万美元。

意思就是小公司根本烧不起这个钱。

而另外一个障碍是，小公司在产业化落地上能走的路也更少。

大模型的商业化终点是产业，这是已经不必过多解释的行业共识。但落入产业的条件是：

1、本身自己有产业资源；
2、掌握着可以触达产业资源的平台接口或渠道。

第一种，本身自己有产业资源。主要是通过将AI能力融入自身业务，进而影响产业上下游。

比如京东做言犀，侧重的就是零售、金融和供应链物流，这些都是典型的京东自有业务，做出来直接有测试场景和落地应用的空间，根本不用假手于人，而且还能向上下游辐射拓展第一批种子用户。蚂蚁集团的“贞仪”和百度金融旗下的“轩辕”，也是类似逻辑。（恒生电子的LightGPT，学而思的MathGPT）

同理的还有网易有道的子曰，直接落地落到教育口，甚至还能配套自有硬件，比如有道的词典笔。携程的问道，阅文的妙笔，用友的YonGPT，这些在各自领域举足轻重的垂类巨头亲自下场做闭源大模型，从战略上来讲进可攻退可守，先期的获客、训练成本，适配、调整效率，都有显而易见的优势。

怎么都比小公司吭哧吭哧做出来个普适款的大模型，再吭哧吭哧追在产业后面玩命推销，然后一点一点做产业接入和适配的模式，要省力气得多。

网易有道“子曰发布会

第二种，掌握着可以触达产业资源的平台接口或渠道。这种模式基本上是将AI大模型接入自身平台，让平台获取AI能力后，能够更好地服务原有的产业端客户。

这里最典型的，软件层面比如阿里钉钉搭载的通义千问，字节跳动未来要做的火山方舟；而硬件层面则比如华为要接入工业系统和整个鸿蒙的盘古系列，还有小米初具雏形的MiLM-6B等等。

根据 C-Eval 给出的信息，MiLM-6B 模型已经在计量师、物理、化学、生物等多个项目获得了较高的准确率

阿里“通义千问”目前推得最顺利领域之一，就是在钉钉中的应用。钉钉本身就是做企业服务的平台，产品架构的底层逻辑就是建立在公司和组织层面上的，而且一直都在做深入产业的工作，安全性也已经得到过验证。这意味着，通义千问接入后，可以从最底层调动原始数据帮助决策者进行定制化的分析和总结。

这种本身就有企业服务平台的公司，接入AI大模型之后，是最有可能帮助实现企业内部AGI的。而目前国内做这个且有平台级能力的，除了阿里的钉钉，就是字节跳动的飞书，还有腾讯的系列套件，二级梯队可能是以WPS为主要产品的金山办公，或者笔记软件有道云或印象笔记等。

当然还有一个比较特殊的百度，这家公司虽然有很强的技术实力，但因为入口在搜索，所以经常卡在To C和To B的中间，自身缺少杀手级别的企业应用。这也就能理解为什么在ChatGPT爆火后，百度要那么着急发布文心系列——不是很多人以为的什么追赶进度，而是极其现实的：为了抢市场。

百度没有钉钉，没有飞书，也没有微信或者WPS。但有意思的是，百度除了搜索之外，还会有车和智能交通配套系统。

集度在发布会上宣布全面接入文心一言；图源来自：现场官方返图

这刚好就是我们要说第二种模式：直接从硬件切入。

汽车领域，集度在2月份就已经宣布接入百度文心一言，理想6月在常州发布了自家研发的认知大模型"Mind GPT"，问界未来介入华为旗下的盘古，大体上也都是时间问题。传统各大厂商未必自己完全走自研的路，但不可能不做，这也是一个AI大模型厂商们的兵家必争之地。

各大手机厂商也显然都不会缺席。华为已经接入了盘古，小米也已经发布了MiLM-6B，OV和荣耀虽然目前还没有落地的大模型，但也都已经进行了大量布局，将AI接入自身手机系统做智能化升级，都只是时间问题。

当然，华为更特殊一点，盘古系列是鸿蒙的最佳拍档，但鸿蒙却不只为了华为手机而生。华为在工业和基础设施领域的布局，未来都将会成为鸿蒙+盘古的主场。

华为开发者大会宣布鸿蒙4.0接入盘古大模型；图源来自：现场官方返图

无论是从成本，还是从产业资源上看，AI大模型这个智能时代的底层支持领域，都已经越来越趋向于巨头们的游戏，留给小团队和独立创业公司们的机会虽然不是没有，但确实已经越来越少，而抓住机会也正在变得越来越难。

中国人最擅长的“应用层战争”

固然牌桌上只剩下了中美两国，但中美之间依然存在着明显的差距。星海一直以来经常会被问的一个问题是：在这个领域，我们和全世界最先进的水平差几年？

在AI大模型上，这个问题李彦宏和王小川都回答过。李彦宏说文心一言和OpenAI差距大概是两个月，王小川挺震惊，说那你们问的应该是平行宇宙的李彦宏，不是我们这个世界的。

记者问此话怎讲，王小川：“那怎么可能只差两个月啊？那一定是另一个宇宙嘛。”

在王小川概念里，如果要用时间衡量，OpenAI比国内应该领先三年的时间。之前业内都说追上GPT-3.5可能需要一年时间，但人家已经到4了，还有5在训练，所以他觉得有三年。如果大家很努力，那可能会短一点。

但应用层不一样。

王小川六月去硅谷转了一圈，去之前，他想的是，中国AI大模型已经在追求“理想”的道路上比OpenAI慢了半步，但落地他想要比美国人快上半步。但交流完回来，他的想法就变了：落地这事，王小川觉得能比对方快三步。

王小川去硅谷的时候发现，那帮子不差钱的工程师已经在研究怎么把1000万块GPU联在一块做模型架构了，但英伟达一年才生产100万块GPU……

而反面是，虽然工程师文化浓厚，但美国有大量工程师没有任何应用的经验，一旦从做技术延展到做应用，“能力实在不咋样”。

大模型是一个必须落向应用，但却又没有办法做完服务用户最后一步的综合性工程，而在这个领域，落到应用层之后的应用反馈，常常会是比空中楼阁式干数据训练更好用的东西。在《TikTok大劫案：美国总统也抢不走的武功绝学到底是什么？》一文中，我们讲Tiktok核心竞争力的时候讲过一个类似原理：当有效数据量到达一定临界值的时候，将会无限拉近不同算法带来的准确率差距。