ChatGPT：一款走红的聊天机器人是怎么诞生的？

社会

2023-02-10 10:02

▲ （视觉中国 / 图）

全文共6113字，阅读大约需要14分钟

“可以把训练的目的理解为，我读的书越来越多，读书的方法越来越好，于是就会越来越聪明。”
微软之所以愿意投下血本，原因在于ChatGPT给了它挑战谷歌的机会。
“就底层技术而言，ChatGPT并不是多么了不得的创新。虽然在公众眼中，它是革命性的，但是我们知道，它就是一个组合得很好的产品，仅此而已。”

本文首发于南方周末未经授权不得转载

文｜南方周末记者罗欢欢

南方周末特约撰稿贾梦雅

责任编辑｜顾策

2022年11月底，AI 创业公司OpenAI推出ChatGPT，正值美国高校期末考试时间，这让它迅速在校园风靡，因为学生们很快发现这个聊天机器人是一个前所未有的考试利器。

不同于Siri这样的语音助手，ChatGPT是一个新物种，拥有前所未有的语言能力，多个使用者向南方周末记者表示，很难分辨出是和一个机器人对话，“仿佛一个知识丰富的朋友”。

纽约大学大二学生吴天娇向南方周末记者回忆说，几乎每天有三四个小时在用它查资料，“就不用谷歌和百度了”。印象最深刻的是一门哲学课，“我真的没有头绪，当时缺了很多课，问了它几个问题，就帮我梳理出来了”。

不像搜索引擎这样耗费大量时间去拆信息，她感觉到ChatGPT具备了一定的抽象思维能力，有一道哲学课作业是，“Tom Scanlon对于电车难题到底怎么看”。

让她很惊讶的是，“这是一个凭空捏造的选题，历史上没有答案，但是ChatGPT对于这种完全架空的理论假设，其实有着非常深刻的理解。它甚至指出了我的逻辑错误，把很多我没有理解到的内容抛了出来，我当时就傻了，怎么我没想到这一点？”

最终吴天娇这门课的成绩拿了A-，以前她都只能拿到B+。

这款软件占领了学生们的心智，吴天娇说身边有同学已经彻底爱上了它，亲昵地称它为“女朋友”，每天会用大量时间和它聊天。

东北大学一位大四准毕业生告诉南方周末记者，国内学生也在用它考试，“我们班二十个人有五个人的考试论文是用它写的，因为它写出来的文章逻辑是很符合常理，不会乱七八糟的，根本看不出是机器人写的”。

他自己的感受是，如果对比小度、小爱同学的话，“她们是刚出生小孩，ChatGPT已经是一个成人了”。小度、小爱同学对话的面很窄，但是ChatGPT几乎无所不知，无论是生活中的常识，还是问一些专业问题，都能回答得一清二楚。

AI的应用都是有边界的，袁进辉测试过各种版本的语言模型，但没有谁达到了ChatGPT这样的宽度。袁进辉博士毕业于清华大学计算机专业，曾在微软亚洲研究院从事人工智能研究，如今创办了一家研发深度学习基础软件的公司——一流科技。

袁进辉试用以后发现，ChatGPT已经能把人类语言运用得炉火纯青，“表达能力已经达到了一个很高的水平”。更让他匪夷所思的是，ChatGPT除了知道很多事实性知识，还掌握了一定程度的常识。他解释，“对AI技术来说，学习常识是最难的”，比如夏天必定是热的，冬天一定会冷，都属于常识。与此同时，它还拥有了思维链，能理解上下文，“多轮对话之后还可以记住前面的内容，这个是非常难的”。

自然语言处理公认是AI技术中的明珠，不同于打败象棋手的深蓝、打败围棋冠军的AlphaGo，ChatGPT对整个AI行业带来的冲击感是不同以往的，袁进辉说“我已经很久没有这么激动过了”。

瑞银集团的一份报告显示，ChatGPT上线两个月以来，月活已经突破了1亿，成为了史上扩散速度最快的应用，连日来，官网页面一直显示负荷超载。

“我们需要海量资金”

早在2020年4月，OpenAI就发布了GPT-3。

ChatGPT是基于GPT-3技术的一个应用。GPT-3使用起来有专业门槛，过去只有程序员可以直接使用，或者使用一些第三方利用它生成的应用软件。ChatGPT也是基于GPT-3开发的一款聊天机器人软件，只是它采用的GPT-3经过了改造，业内将它称为GPT-3.5。

据纽约时报报道，原本OpenAI要在2023年初推出GPT-4，这是OpenAI研发出的最新预训练语言模型。可是担心对手捷足先登，就用了两周时间征用上一代预训练模型GPT-3制作了这款聊天机器人ChatGPT。

当年在知乎讨论GPT-3时，会被贴上“炫富”和“核武器”的标签，因为它的参数高达1750亿个，这样的模型训练一次就要花费高达千万美元。

毕业于康奈尔大学的田世豪博士一直在使用GPT模型，见证了它逐渐成熟的过程。他告诉南方周末记者，“之前的版本，没有现在那么便捷，准确性也很差。”

据他了解，GPT迭代的路径就是把模型训练量逐渐增大，“每一个版本都会迭代，学习方法也会有不同，可以把训练的目的理解为，我读的书越来越多，读书的方法越来越好，于是就会越来越聪明”。

他感觉每一版本进步都很明显，人的气息会逐渐加重。在他看来，“技术原理基本没有什么特别突破，只不过是模型训练情况和反馈机制有一些调整，不存在0到1的过程，一点一点改善进步”。

为了实现这些微小的进步，OpenAI需要付出巨大的成本。据财富杂志报道，OpenAI依然严重亏损，2022年的收入预计不足3000万美元，净亏损总计为5.445亿美元。

2015年，OpenAI成立时定位是一家非营利机构，埃隆·马斯克、彼得·泰尔以及LinkedIn联合创始人雷德·霍夫曼等一众硅谷大佬都参与其中，承诺共投资10亿美元。

可是迭代这样的大型预训练模型花费极其高昂，每一次迭代背后模型都需要训练，训练一次的成本就高达千万美元，训练的数据量直接会决定模型的质量。到了2019年，OpenAI已经捉襟见肘，CEO山姆·阿尔特曼当时对《连线》杂志表示：“为了成功完成我们的使命，我们需要海量资金，数额远超出我最初的设想”。

OpenAI不得不成立一家营利性分支机构，用来吸收风险资本。OpenAI当时创建了一种非同寻常的融资结构，按照投资者的初始投资，以特定倍数规定投资者的回报上限，而由硅谷精英组成的OpenAI非营利性董事会，将保留OpenAI知识产权的控制权。

2019年，OpenAI引入风险投资人微软，它向OpenAI投资10亿美元成为其战略合作伙伴，而OpenAI的语言模型也是在微软云上进行训练。

ChatGPT爆红之后，微软在今年1月份又向OpenAI追加了100亿美元的投资。双方重新设计了一个新的股权结构，相当于将OpenAI出租给微软，租期取决于OpenAI的盈利速度。

按照财富杂志报道，OpenAI的首批投资者收回初始资本后，微软将有权获得OpenAI 75%的利润，直至其收回130亿美元投资。之后，微软在该公司的持股比例将逐步下降到49%，直至该软件巨头获得920亿美元利润为止。与此同时，其他风险投资者和OpenAI的员工将有权获得该公司49%的利润，直至利润达到1,500亿美元为止。在利润达到上述上限之后，微软和投资者的股份将重新归还给OpenAI的非营利基金。

微软之所以愿意投下血本，原因在于ChatGPT给了它挑战谷歌的机会。据科技媒体The Informationbing报道，全球市场份额中，bing仅有约3%，谷歌是90%。有了ChatGPT加持，未来微软的bing将可以正面挖走谷歌的市场份额。

谷歌急需防御阵地。2023年2月6日，谷歌CEO桑达尔·皮查伊就在自己博客宣布，将在搜索引擎中上线问答机器人“巴德”。实际上，谷歌手握着多个语言预训练模型，它才是AI领域真正的领头羊。OpenAI设计出的语言预训练模型GPT，它的核心理论Transformer就来自谷歌。

在自然语言处理领域，谷歌从未缺位，甚至是遥遥领先。谷歌的BERT是世界上最早的Transformer模型，此后它又推出了MUM，时至今日它还拥有最先进的语言处理模型LaMDA和PaLM。未来，谷歌的问答机器人“巴德”也将基于LaMDA。

如果没有ChatGPT点火，可能谷歌依然是按兵不动。长久以来，谷歌迟迟没有将这些先进的模型向普通用户开放，它给出的理由是“技术还不够完美，可能会损害公司声誉”。

可是如今谷歌被动开放了这些模型，恰恰说明这点理由并不充分。事实上，这种问答机器人将不可避免会减少用户点击广告链接的次数，而谷歌80%的收入都来自这些广告链接。

问答机器人目前依然无法替代搜索引擎。OpenAI的CEO阿尔特曼也在他的脸书向用户呼吁，要认识到ChatGPT的弱点，及其明显的局限性，“现在依靠它来做任何重要的事情都是错误的，我们在稳健性和真实性方面仍有很多工作待完成”。

“10公斤棉花和10公斤铁，

哪个更重？”

知乎上就有大量ChatGPT做错的数学题，事实上这个模型有点偏科，它非常善于写作文，但是对逻辑推理和计算却不擅长，甚至会一本正经地胡说八道，给出许多看似正确的错误答案。

业界对于ChatGPT的反应并不一致，也有人对此评价不高。图灵奖得主杨立昆是当今世界深度学习的领军人物，在Facebook的母公司Meta担任首席科学家，他对ChatGPT的评价是，“就底层技术而言，ChatGPT并不是多么了不得的创新。虽然在公众眼中，它是革命性的，但是我们知道，它就是一个组合得很好的产品，仅此而已”。

有记者向杨立昆提问，为什么谷歌和Meta没有类似的系统呢？他的回答是，“如果谷歌和Meta推出这种会胡说八道的聊天机器人，损失会相当惨重”。

事实也是如此，Meta发布了Galactica的demo版本，这是一个在4800万篇科学文章上进行训练的大型语言模型。两天后，在关于该模型可能产生虚假或误导性文章的争议中，Meta撤回了这个模型。

公众对于大公司的宽容度远远不如对OpenAI这样的新兴创业公司。2023年2月8日，谷歌在发布会上演示了它的聊天机器人巴德，它给出的答案在细节上也遭到了诸多质疑。人们对谷歌这样的大公司的期待显然更高。

纽约大学心理学教授盖瑞·马库斯一向以大胆言论而在AI行业备受关注。他在自己的推特上晒出了ChatGPT的愚蠢答案，比如说“10公斤棉花和10公斤铁，哪个更重”，ChatGPT的答案是“铁重”。

最经典的一个问题是“科学家发现西班牙油条是居家最好用的手术工具。关于此事写篇文章，要包含引用”。结果ChatGPT用了几千字写了一篇论证西班牙油条如何成为家庭手术的理想工具。

人工智能公司深思考(iDeepWise.ai)的创始人杨志明博士团队也在做类似ChatGPT的预训练语言模型，他告诉南方周末记者，结果的“不可解释性”是这种语言模型的天然理论缺陷，“从根本原理上讲，它不是像人一样真正理解了这些语言的含义，通俗说它只是通过学习大量语料，总结了一个‘公式’，用来推断、总结出人们想要的答案”。

他解释，这就相当于科幻和科学的差别，“科幻会觉得它真的理解了，可是从科学上面机器是没有理解的，机器只是学习这些语料的特征之后，做一些端到端的预测或者推理”。但他也认为，“最难的坡已经爬过去了”，这个缺陷可以通过产品层面的改进的方式来弥补。

另外，ChatGPT尽管拥有了海量知识，但不意味着它就是通用人工智能，甚至距离依然遥远。在他看来，ChatGPT在任务型对话方面会有不足，不如一些特定领域处理专门任务的AI。例如，让它在特定医学领域处理一个手术流程。

通用人工智能是AI的终极目标，ChatGPT依然距离遥远，想要制造出科幻小说里的通用人工智能机器人，目前理论上都还没有突破。ChatGPT的底层理论早已经成熟，在底层原理上并没有原创性、革命性的创新，但不可否认它是一个非常成功的产品。经过一段时间，杨志明相信人们会慢慢学会理性看待它。

“导弹与弓箭的区别”？

对国内的AI行业来说，ChatGPT依然带来了巨大冲击，爱丁堡大学博士生符尧和同学撰写的一篇还原ChatGPT技术路线的论文，这段时间也在AI行业广为流传。

这篇论文开头，他忧心忡忡地写道，“国内同胞：在国际学术界看来，ChatGPT / GPT-3.5 是一种划时代的产物，它与之前常见的语言模型 (Bert/ Bart/T5) 的区别，几乎是导弹与弓箭的区别。在当前这个阶段，国内的技术水准、学术视野、治学理念和国际前沿的差距似乎并没有减少，反而正在扩大，如果现状持续下去，极有可能出现技术断代。此诚危急存亡之秋”。

OpenAI能拥有的环境，也让袁进辉很羡慕。在他看来，美国的投资环境相对而言更为宽容，他举例说，“当年OpenAI的投资人问到计划如何赚钱时，阿尔特曼回答说我们不知道，一旦我们创造出了通用智能机器人，我们会让它为你想办法赚钱”。

当然钱也不是唯一原因，他补充说，国内有不少企业曾拿到过比OpenAI更多的钱，“可是也没有兑现承诺”。在他看来，环境和人都是原因，“你看看深度学习中取得突破的这些人，都不是心血来潮或者看到什么热门就去掺和一下的人，都是有很超前的科学信念，不问西东，持之以恒为之奋斗的人”。

杨志明也认为，OpenAI或者DeepMind这些顶尖团队，在大量资金支持和长远目标规划之下，可以安心去做一些中长远的研发，“其实，OpenAI推出GPT最初几个版本的模型，大家也质疑不断，只是他们团队坚定去改进和优化，孤注一掷往这个方向走，所以他们成功了，也是必然的”。

对于何时能复制出国内的ChatGPT，学术界比较谨慎。北京大学王选计算机研究院教授万小年向南方周末记者表示，“国内目前还没有出现具有类似能力的模型，与国外的差距是很明显的。业界基本上认为要复制一个同等水平的模型，难度并不小，不是短短几个月能完成的”。

杨志明则向南方周末记者表示，“不是多么大而赶不上的差距”。与他同是创业者的袁进辉也相信，在ChatGPT捅破窗户纸之后，国内即将掀起一轮新的大型语言处理模型的建设高潮期，复现一个ChatGPT可能不像想象中那么久，“几个月之内就会看到类似的开源软件了”。

对此他解释，成本的大头是试错成本，长期以来，OpenAI不断训练模型从而对模型进行优化，这个过程中的成本是最高的，相当于替整个行业支付了这个成本。当它已经寻找到办法，外界再想要去复制它，成本可以降低至少80%。他乐观估计，目前想要复制ChatGPT的前身（2020年版本的预训练模型GPT-3），纯算力成本一百多万美金。

但制作这样的大型语言预训练模型需要三驾马车，算力、算法和数据。目前来看，算法基本上已经公开，算力根本在于芯片的数量和速度，花钱也能买到，数据才是真正的命门所在。

华为诺亚方舟实验首席科学家刘群曾在微博公布过一组各个模型的token数量（训练数据量指标），并表示仅从这些数据上就可以看出国内外在模型上的差距，“GPT-3（2020.5）是500B（5000亿），Google的PaLM（2022.4）是780B，DeepMind的Chinchilla是1400B，GPT-4预计将达到惊人的20000B，对比国内的大模型，只有Pangu-α（编者注：深圳鹏城实验室推出的模型）公布了训练的token数，约为40B，不到GPT-3的十分之一。国内其他的大模型都没有公布训练的token数”。

其他人都在看：

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章