ChatGPT：又一个AI突破的时刻｜真格投资人专栏

2022-12-08 09:12

（

最近一周 ChatGPT 大火，它确实有着让人欲罢不能的魔力～

本周真格投资副总裁林惠文带来了一次即时分享。关于 ChatGPT 的发展历史、背后的技术原理、相关领域的投资趋势，以及他体验后的感受。我们将分享整理成文，希望延续这场讨论，欢迎在评论区留言互动～

上周四， OpenAI 发布了一个 AI 聊天机器人 ChatGPT，真的很上头。借此机会，我想做一些有关 ChatGPT 体验、和 GPT-3 的对比、ChatGPT 提升的核心点与原因、NLP 发展的前世今生、以及未来投资趋势的分享。

之前像 GPT-3 还有 META 等其它 AI 机器人，使用起来很难带来颠覆性的感受。在体验过其他的之后，ChatGPT 真的太革命了！

下面，直接上体验过程：

比如，你问 ChatGPT 能不能以鲁迅的风格写一段话，表达我现在因为疫情不敢出门的害怕，还有想吃火锅的心情。大家可以看下图中，ChatGPT 用鲁迅的风格回复了很多有意思的东西。

比如，再试试看用柏拉图的口吻，给年轻人提出一些建议？在下图右侧。

这也还不是最有趣的。最有趣的是，它有很强的上下文连接的能力。

比如说，我昨天晚上测试让 AI 帮我写一个朋友圈，表达我喝完咖啡睡不着的心情。它给出了一段很有趣的文字。当我再追加一个问题，“能不能加一些夸张的成分”，它就在中间用了大量夸张的成分，“我喝了一杯咖啡，它就像一颗炸弹炸开了我的大脑……”。具体内容，可以看下图。

ChatGPT 在体验过程中，给人最大的感觉就是，它有非常强的对知识的理解能力，以及能非常精准地判断出人提问的意图。这些能力带来了非常强的效果，以及非常强的连续问答能力。

更深层次的，它在代码层面，也就是对强逻辑的东西，也有非常强的生产能力。比如，我让它用 Golang 写一段代码，它能写一个天衣无缝的代码，并给它做一个合理的解释。包括，在网上大家分享了很多让 ChatGPT 去找 bug、改bug，它同样不在话下。

与 GPT-3 的对比

让我们来和 Open AI 发布的上一个产品 GPT-3 做一个比较。GPT-3 发布在 2022 年初，其实只热了一周左右，就很少有人再去玩了。原因是，大家发现它经常回答的牛头不对马嘴。

这里有一个例子，“给 6 岁小朋友解释一下月球登陆”，它开始重复没有意义的回答，并泛化到一些其他内容。

这其实体现出过去训练中一个很大的问题，它只会找不同问题之间的相关性，把相关性搬给你，但它并不了解你真实想要的答案是什么样子。

但到了 ChatGPT 的时候，它能够比较精准地知道提问者的用意以及期待的答案。大家一定要记住“期待的答案”，因为后面会讲到它为什么能做到，以及有一个对比。

比如问 GPT-3 “为什么鸟类要往南方迁徙？”，它的回答甚至是错的。因为在它过去训练的语义里，它捕捉到的信息是“因为北方太冷，南方暖和”，于是它把“北方太冷”放到答案里。但把问题中的主语变成“迁徙到南方”，它的回答就变成了南方太冷。这是一个泛化错误的问题。

ChatGPT 提升的核心点

切入到很重要的点，为什么 ChatGPT 能够提升？它提升的核心点到底是哪些？

对比之前所有的训练的模型，我们发现它：

1、敢于质疑不正确的前提

2、主动承认错误和无法回答的问题

3、大幅提升了对用户意图的理解

4、大幅提升了结果的准确性

抽象来说，它能更精准地拿捏人类的意图，并输出和人类意图一致的结果。大家之所以这次能玩得这么疯，不断地跟它对话，核心就是这一点：是它对人类意图的理解达到了非常高的高度。对话轮次的提升是结果，根本的原因是它更理解了人类的意图，并且不断地去给你对的回复。

ChatGPT 提升的原因

从技术层面来看，ChatGPT 提升的一个最大的原因是：加入了基于人类的反馈系统（Reinforcement Learning from Human Feedback）。

讲这个之前，我先介绍一下之前的训练系统。之前的很多训练系统，其实更多的是一种分类，是一种文字相关性的判断。

比如你问“什么是香蕉？”，过往它会在网络上摘录，大量的抓取很多关于香蕉相关的词条。但是当你再问复杂问题，它是根本没有办法回答你的。

这个系统的转变就在于，人（标记者 Labeler）的参与。

它首先会从问题的库里抽取一些问题，就比如“什么是香蕉？”；然后把这个问题下发给标记者，标记者书写出他比较期待的答案（比如说“香蕉是一种水果，从香蕉树……”）；通过人的参与之后，最后这个答案会用来优化 GPT-3.5 的训练过程。

这样的训练会产生一个初步的模型。

然后，系统会采样一些问题，将模型给出的答案与人类标记者手写的答案混合，然后交给标记者对混合后的答案质量进行排序：

比如再次看到“什么是香蕉？”这个问题时，它会列出一小部分模型给出的答案，例如“香蕉是芭蕉科”，“香蕉从属性来说与草莓、葡萄、猕猴桃是亲属”，“香蕉是芭蕉科植物甘蕉的果实”等等，同时会把标记者的答案掺杂进来，比如刚才标记者写的“香蕉是一种水果，从香蕉树……”。

这些掺杂的答案，会再一次交给标记者（Labeler）。让大量的人类标记者（一定是大量的标记者）对答案的质量做排序，用整个排序的结果生成一个奖励模型（Reward Model）。

当整个奖励模型和调优后的 GPT-3.5 模型都成熟以后，当你问系统：“你能不能帮我写一个水獭的故事”。

第一步：它首先会到自己的模型中去生成一段结果；

第二步：将生成的第一版结果放在奖励模型中得到一个优化的参数。如果它认为这个优化还不够好，就会在得到一个矫正参数以后，再把这个矫正参数扔回到这个模型里面，让它再去生成一版结果，再去输入到奖励模型。它会判断是否达到人类倾向的答案，如果还不达到，就继续迭代优化。

第三步：直到迭代优化输出到一个阈值，它认为可以成为人类可以阅读，并接近人期待的答案结果时，它会停下来，输出这个结果。

人类反馈系统的引入，是整个 ChatGPT 提升的核心原因。

NLP（自然语言处理）的前世今生

接下来，我用倒叙的方式讲一下抽象出来的 NLP 历史，简单回顾，整个过程是怎么演进而来的？

首先，ChatGPT 有一个兄弟系统，叫 InstructGPT，但这个并没有上线。这是 2022 年 2、3 月出现的。它有一些严重的问题，比如很多问题的答案会收缩到非常重复的轮次里，或者说是结果上，所以并没有发布出来。ChatGPT 优化了这个系统，在今年公布了。

再往前推就是 GPT-3，这是在 2020 年引发巨大轰动的一个系统。它之所以引发巨大轰动，因为这是第一次有训练者使用海量数据和巨量参数形成的系统，在体验的时候已经能够感受到它智能的提升。但是它没有与人多轮次对话的能力，是因为它不理解人期待的结果，给不出人期望的答案。以至于你感觉它在回答某一个问题的时候很懂，但没法跟它长期的对话下去。

2019 年的 GPT-2 其实是 GPT-1 的一个提升。GPT-1 第一次使用了 Transformer 模型，尝试用大量数据开始训练。GPT-2 是大力出奇迹， GPT-3 更是大力出奇迹，在整个结果上得到了一些提升，但没有达到人想要的效果。

再往前捋捋，其实最重要是 2017 年 Google 提出的论文 Transformer。大家可以看到，其实整个 GPT 只是 Transformer 模型的一个分支，是从 decoder 模型分离出来的一个分支。

在人工智能 NLP 的历史里面，比 Transformer 更早的阶段是卷积神经网络，也就是整个神经网络的架构。有关卷积神经网络架构的研究，开始于 1990 年。人们尝试用人脑的结构去训练一个智能系统，去实现 NLP 或者对图像的识别。2006 年 Hinton 的突破以后， 2015 年开始繁荣。

2006 年突破后遇到的最大的障碍是，它的训练需要大量的存储和巨量的运算，也就是 GPU 一定要成熟。2010 年 GPU 开始成熟以后，大家开始尝试着训练卷积神经网络下的架构。直到 AlphaGo 出来以后，大家发现这条路可行，然后慢慢的到 2015 年开始繁荣。

下面，我再来总结一下发展趋势。

基于规则的系统就是手写规则，简单粗暴，只能处理非常少量的数据以及非常少的分类。

而机器学习就是主动找到一些函数或者参数去分类固定量的数据，适合分类一些二元的或者 N 元的东西（ N 少于某一个值）。比如分类黄豆和绿豆，这种特征非常明显的东西。

再演化到后来就产生了神经网络，尝试着像人脑一样去学习，开始尝试大量的数据。但神经网络的一大问题是，训练的成本和提前标注本身可能会产生偏差，而且它一定需要提前标注。这就是为什么对于很多 AI 的创业者来说，标记数据需要大量的成本，且容易产生偏差，同时需要大量的收集数据的反馈。

Transformer 带来的一大变化，是不需要提前标注大量数据，同时把整个系统的学习和理解又提升了一个层次。过往神经网络的学习，其实就是给它投喂大量标记好的数据，它照着这个规则去摸索。但 Transformer 带来的一个变化就是，更多的让它理解是一个句子或输出里什么是重点，而不是让它关注所有的东西，也就产生了一个更大幅度的优化，产生了更好的效果。

其实这就跟人脑本身思考的过程和观察的过程越来越像。

再到 GPT-3 的时候，Open AI 尝试能不能投喂海量的学习数据，花费了 1200 万美金，但起到的效果只是它对某个领域产生了更深的理解，而并不能跟人产生持续的对话。

我们从整个趋势中也能看到 ChatGPT 起到的作用，就是让它学习了海量的数据之后，继续对它学习数据和输出数据的偏好产生影响。让它以人类本身的偏好，输出和排序结果。当你问 GPT 一个问题的时候，它会同时生成 100 个答案。这些答案根据过往收集到知识的相关性进行排序，同时会更加倾向于人类本身的偏好。

其实过往所有的摸索都围绕“算法”和“数据量”这两个层面展开。算法其实更像是人的 DNA，找到更好的算法，会让 DNA 更加的高级，更加的复杂，更加的有效。投喂数据量就是“你既要聪明还要努力”。

从最早机器学习到开始找算法，再到后来 GPT 开始投喂大量的数据，大家都是在这两个层面上去努力。ChatGPT 提出的模型就是：每走一步都要观察一下人类的反馈，朝着人类期望的方向进发。于是今天，大家在玩这个 ChatGPT 的时候，达到了非常非常优质的效果。

这个事情再脑洞一下，未来基于人类反馈的训练系统能不能拓展到更多的领域，比如说情感，比如说更多垂直行业领域。再往遥远的未来去想，那我们能否去找到一个 DNA、找到一套算法，它的能量能够突破人脑结构限制？这一部分突破以后，我觉得整个 AI 系统能够达到更深的层面。

从 ChatGPT 看未来的投资趋势

从投资的角度来说，我觉得应用层面会出现新的 AI+ 的机会，例如：

1、诞生更专业的客服机器人和机器翻译

2、创业者朝着更垂直更专业化的 AI 进发（医疗、教育等）

3、出现新的创业机会，即 AI 基础设施的机会（模型运维，管理，训练等）

未来，大概率会是大模型流行的时代开始。大模型背后是巨大的数据量和复杂的运维过程，模型运维管理和训练都会成为很大的挑战， AI 基础设施的投入可能也是一个好的投资机会。

对于创业团队来说，需要考虑就是大模型的流行本身就是成本的上升，创业团队初始成本的上升，团队能融资能力的上升。另外就是训练成本会持续地迭代上升。在竞争过程中，团队对于产品的定位，对于商业模式的把量也很重要。

以上的内容如有错误，欢迎大家进行指正。如果你也对 ChatGPT 感兴趣，欢迎在评论区与我们直接互动～也可以在原文链接中查看代码家的分享ppt~

参考文献：

1. https://openai.com/blog/chatgpt/

2. https://openai.com/blog/instruction-following

3. https://beta.openai.com/docs/model-index-for-researchers

4. https://mp.weixin.qq.com/s/haaL-2XjRG0oS24pQyqw1A

5. https://easyai.tech/ai-definition/nlp/

6. https://www.exxactcorp.com/blog/Deep-Learning/deep-learning-in-natural-language-processing-history-and-achievements

7. https://dennybritz.com/posts/wildml/understanding-convolutional-neural-networks-for-nlp/

8. https://github.com/sw-yx/ai-notes/blob/main/TEXT.md#jailbreak

9. https://xiaosheng.run/2022/04/04/transformers-biography.html

10. https://zhuanlan.zhihu.com/p/43493999

11. https://zhuanlan.zhihu.com/p/350017443

12. https://easyai.tech/ai-definition/attention/

13. https://medium.com/walmartglobaltech/the-journey-of-open-ai-gpt-models-32d95

更多被投新闻

依图科技 | Momenta | Nuro | 云天励飞

禾赛科技 | 晶泰科技 | 地平线 | 燧原科技

亿航智能 | 思谋科技 | 青藤云安全 | 爱笔智能

沐曦 | 驭势科技 | 芯耀辉 | 森亿智能 | AutoX

格灵深瞳 | 曦智科技 | 来也科技 | 星亢原

黑湖智造 | Momenta | 领创集团 | 非夕机器人

芯行纪 | 灵明光子 | 优艾智合 | 炬星科技

东方空间 | 循环智能 | 诗云科技 | 赛舵智能

潞晨科技 | 芯控智能 | 氦星光联 | 悠跑科技

推荐阅读

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章