ChatGPT:又一个AI突破的时刻|真格投资人专栏
上周四, OpenAI 发布了一个 AI 聊天机器人 ChatGPT,真的很上头。借此机会,我想做一些有关 ChatGPT 体验、和 GPT-3 的对比、ChatGPT 提升的核心点与原因、NLP 发展的前世今生、以及未来投资趋势的分享。
之前像 GPT-3 还有 META 等其它 AI 机器人,使用起来很难带来颠覆性的感受。在体验过其他的之后,ChatGPT 真的太革命了!
下面,直接上体验过程:
比如,你问 ChatGPT 能不能以鲁迅的风格写一段话,表达我现在因为疫情不敢出门的害怕,还有想吃火锅的心情。大家可以看下图中,ChatGPT 用鲁迅的风格回复了很多有意思的东西。
比如,再试试看用柏拉图的口吻,给年轻人提出一些建议?在下图右侧。
这也还不是最有趣的。最有趣的是,它有很强的上下文连接的能力。
比如说,我昨天晚上测试让 AI 帮我写一个朋友圈,表达我喝完咖啡睡不着的心情。它给出了一段很有趣的文字。当我再追加一个问题,“能不能加一些夸张的成分”,它就在中间用了大量夸张的成分,“我喝了一杯咖啡,它就像一颗炸弹炸开了我的大脑……”。具体内容,可以看下图。
ChatGPT 在体验过程中,给人最大的感觉就是,它有非常强的对知识的理解能力,以及能非常精准地判断出人提问的意图。这些能力带来了非常强的效果,以及非常强的连续问答能力。
更深层次的,它在代码层面,也就是对强逻辑的东西,也有非常强的生产能力。比如,我让它用 Golang 写一段代码,它能写一个天衣无缝的代码,并给它做一个合理的解释。包括,在网上大家分享了很多让 ChatGPT 去找 bug、改bug,它同样不在话下。
让我们来和 Open AI 发布的上一个产品 GPT-3 做一个比较。GPT-3 发布在 2022 年初,其实只热了一周左右,就很少有人再去玩了。原因是,大家发现它经常回答的牛头不对马嘴。
这里有一个例子,“给 6 岁小朋友解释一下月球登陆”,它开始重复没有意义的回答,并泛化到一些其他内容。
这其实体现出过去训练中一个很大的问题,它只会找不同问题之间的相关性,把相关性搬给你,但它并不了解你真实想要的答案是什么样子。
但到了 ChatGPT 的时候,它能够比较精准地知道提问者的用意以及期待的答案。大家一定要记住“期待的答案”,因为后面会讲到它为什么能做到,以及有一个对比。
比如问 GPT-3 “为什么鸟类要往南方迁徙?”,它的回答甚至是错的。因为在它过去训练的语义里,它捕捉到的信息是“因为北方太冷,南方暖和”,于是它把“北方太冷”放到答案里。但把问题中的主语变成“迁徙到南方”,它的回答就变成了南方太冷。这是一个泛化错误的问题。
切入到很重要的点,为什么 ChatGPT 能够提升?它提升的核心点到底是哪些?
对比之前所有的训练的模型,我们发现它:
1、敢于质疑不正确的前提
2、主动承认错误和无法回答的问题
3、大幅提升了对用户意图的理解
4、大幅提升了结果的准确性
抽象来说,它能更精准地拿捏人类的意图,并输出和人类意图一致的结果。大家之所以这次能玩得这么疯,不断地跟它对话,核心就是这一点:是它对人类意图的理解达到了非常高的高度。对话轮次的提升是结果,根本的原因是它更理解了人类的意图,并且不断地去给你对的回复。
从技术层面来看,ChatGPT 提升的一个最大的原因是:加入了基于人类的反馈系统(Reinforcement Learning from Human Feedback)。
讲这个之前,我先介绍一下之前的训练系统。之前的很多训练系统,其实更多的是一种分类,是一种文字相关性的判断。
它首先会从问题的库里抽取一些问题,就比如“什么是香蕉?”;然后把这个问题下发给标记者,标记者书写出他比较期待的答案(比如说“香蕉是一种水果,从香蕉树……”);通过人的参与之后,最后这个答案会用来优化 GPT-3.5 的训练过程。
这样的训练会产生一个初步的模型。
然后,系统会采样一些问题,将模型给出的答案与人类标记者手写的答案混合,然后交给标记者对混合后的答案质量进行排序:
比如再次看到“什么是香蕉?”这个问题时,它会列出一小部分模型给出的答案,例如“香蕉是芭蕉科”,“香蕉从属性来说与草莓、葡萄、猕猴桃是亲属”,“香蕉是芭蕉科植物甘蕉的果实”等等,同时会把标记者的答案掺杂进来,比如刚才标记者写的“香蕉是一种水果,从香蕉树……”。
这些掺杂的答案,会再一次交给标记者(Labeler)。让大量的人类标记者(一定是大量的标记者)对答案的质量做排序,用整个排序的结果生成一个奖励模型(Reward Model)。
当整个奖励模型和调优后的 GPT-3.5 模型都成熟以后,当你问系统:“你能不能帮我写一个水獭的故事”。
第一步:它首先会到自己的模型中去生成一段结果;
第二步:将生成的第一版结果放在奖励模型中得到一个优化的参数。如果它认为这个优化还不够好,就会在得到一个矫正参数以后,再把这个矫正参数扔回到这个模型里面,让它再去生成一版结果,再去输入到奖励模型。它会判断是否达到人类倾向的答案,如果还不达到,就继续迭代优化。
第三步:直到迭代优化输出到一个阈值,它认为可以成为人类可以阅读,并接近人期待的答案结果时,它会停下来,输出这个结果。
人类反馈系统的引入,是整个 ChatGPT 提升的核心原因。
再往前推就是 GPT-3,这是在 2020 年引发巨大轰动的一个系统。它之所以引发巨大轰动,因为这是第一次有训练者使用海量数据和巨量参数形成的系统,在体验的时候已经能够感受到它智能的提升。但是它没有与人多轮次对话的能力,是因为它不理解人期待的结果,给不出人期望的答案。以至于你感觉它在回答某一个问题的时候很懂,但没法跟它长期的对话下去。
2019 年的 GPT-2 其实是 GPT-1 的一个提升。GPT-1 第一次使用了 Transformer 模型,尝试用大量数据开始训练。GPT-2 是大力出奇迹, GPT-3 更是大力出奇迹,在整个结果上得到了一些提升,但没有达到人想要的效果。
在人工智能 NLP 的历史里面,比 Transformer 更早的阶段是卷积神经网络,也就是整个神经网络的架构。有关卷积神经网络架构的研究,开始于 1990 年。人们尝试用人脑的结构去训练一个智能系统,去实现 NLP 或者对图像的识别。2006 年 Hinton 的突破以后, 2015 年开始繁荣。
2006 年突破后遇到的最大的障碍是,它的训练需要大量的存储和巨量的运算,也就是 GPU 一定要成熟。2010 年 GPU 开始成熟以后,大家开始尝试着训练卷积神经网络下的架构。直到 AlphaGo 出来以后,大家发现这条路可行,然后慢慢的到 2015 年开始繁荣。
下面,我再来总结一下发展趋势。
基于规则的系统就是手写规则,简单粗暴,只能处理非常少量的数据以及非常少的分类。
而机器学习就是主动找到一些函数或者参数去分类固定量的数据,适合分类一些二元的或者 N 元的东西( N 少于某一个值)。比如分类黄豆和绿豆,这种特征非常明显的东西。
再演化到后来就产生了神经网络,尝试着像人脑一样去学习,开始尝试大量的数据。但神经网络的一大问题是,训练的成本和提前标注本身可能会产生偏差,而且它一定需要提前标注。这就是为什么对于很多 AI 的创业者来说,标记数据需要大量的成本,且容易产生偏差,同时需要大量的收集数据的反馈。
Transformer 带来的一大变化,是不需要提前标注大量数据,同时把整个系统的学习和理解又提升了一个层次。过往神经网络的学习,其实就是给它投喂大量标记好的数据,它照着这个规则去摸索。但 Transformer 带来的一个变化就是,更多的让它理解是一个句子或输出里什么是重点,而不是让它关注所有的东西,也就产生了一个更大幅度的优化,产生了更好的效果。
其实这就跟人脑本身思考的过程和观察的过程越来越像。
再到 GPT-3 的时候,Open AI 尝试能不能投喂海量的学习数据,花费了 1200 万美金,但起到的效果只是它对某个领域产生了更深的理解,而并不能跟人产生持续的对话。
我们从整个趋势中也能看到 ChatGPT 起到的作用,就是让它学习了海量的数据之后,继续对它学习数据和输出数据的偏好产生影响。让它以人类本身的偏好,输出和排序结果。当你问 GPT 一个问题的时候,它会同时生成 100 个答案。这些答案根据过往收集到知识的相关性进行排序,同时会更加倾向于人类本身的偏好。
其实过往所有的摸索都围绕“算法”和“数据量”这两个层面展开。算法其实更像是人的 DNA,找到更好的算法,会让 DNA 更加的高级,更加的复杂,更加的有效。投喂数据量就是“你既要聪明还要努力”。
从最早机器学习到开始找算法,再到后来 GPT 开始投喂大量的数据,大家都是在这两个层面上去努力。ChatGPT 提出的模型就是:每走一步都要观察一下人类的反馈,朝着人类期望的方向进发。于是今天,大家在玩这个 ChatGPT 的时候,达到了非常非常优质的效果。
这个事情再脑洞一下,未来基于人类反馈的训练系统能不能拓展到更多的领域,比如说情感,比如说更多垂直行业领域。再往遥远的未来去想,那我们能否去找到一个 DNA、找到一套算法,它的能量能够突破人脑结构限制?这一部分突破以后,我觉得整个 AI 系统能够达到更深的层面。
从投资的角度来说,我觉得应用层面会出现新的 AI+ 的机会,例如:
1、诞生更专业的客服机器人和机器翻译
2、创业者朝着更垂直更专业化的 AI 进发(医疗、教育等)
3、出现新的创业机会,即 AI 基础设施的机会(模型运维,管理,训练等)
未来,大概率会是大模型流行的时代开始。大模型背后是巨大的数据量和复杂的运维过程,模型运维管理和训练都会成为很大的挑战, AI 基础设施的投入可能也是一个好的投资机会。
对于创业团队来说,需要考虑就是大模型的流行本身就是成本的上升,创业团队初始成本的上升,团队能融资能力的上升。另外就是训练成本会持续地迭代上升。在竞争过程中,团队对于产品的定位,对于商业模式的把量也很重要。
以上的内容如有错误,欢迎大家进行指正。如果你也对 ChatGPT 感兴趣,欢迎在评论区与我们直接互动~也可以在原文链接中查看代码家的分享ppt~
沐曦 | 驭势科技 | 芯耀辉 | 森亿智能 | AutoX
微信扫码关注该文公众号作者