GPT4「多点开花」,但技术细节却「点到为止」|Chat AI
封面来源|视觉中国
不久前,OpenAI开放的ChatGPT模型API已经以显著的成本优势惊艳了众人。
而OpenAI的胃口已经越来越大。3月15日凌晨,OpenAI以Twitter和YouTube为宣传渠道,公布了又一个重磅消息——GPT-4上线。
目前,ChatGPT PLUS用户已经能够提前尝鲜;同时,GPT-4的模型API也已对部分开发者开放。
OpenAI将在2023年发布GPT-4的筹谋早已是公开的秘密,但尘埃落定后,一些答案浮出水面,一些答案却“点到为止”。
多模态、图像处理、真实性等等特点,是GPT4公开的答案;而关于数据集规模、参数规模等,OpenAI却并没有回复此前大家的猜想。
What differences make GPT-4 different
GPT-4究竟有何不同?总的来看,模型在图像理解、文本处理、安全性和事实性提升等方面实现了多点开花。
正如3月9日微软德国 CTO Andreas Braun对外宣称的,GPT-4是一个多模态模型。
尽管GPT-4没有和人们预料的一样,可以支持视频、音频等输入方式,但是,支持图像输入已经成为板上钉钉的事实。也就是说,GPT-4附带了图像理解能力,可以对图像内容作出说明、进行分类和分析。但目前,OpenAI还在和合作伙伴「Be My Eyes」共同测试该能力,因此尚未对OpenAI所有客户开放。
除了这一“理所当然”的变化,GPT-4在文本处理方面的能力又有了较大提升。一方面,GPT-4能够处理的文本长度增加了;另一方面,GPT-4的文本记忆能力增加了。
据介绍,GPT-4可以处理超过 25,000 个单词的文本,这一数字约为ChatGPT的8倍。这也意味着GPT-4可以执行的任务场景得以拓展——可以支持格式内容创建、扩展对话以及文档搜索和分析等。
同时,GPT-4 支持的最大token数量为 32,768,相当于64,000个单词或 50 页文字。相比之下,GPT-3.5 和上一版ChatGPT 的token限制为4,096 个,大约 8,000个单词。因此,在对话时,GPT-4能够记住更多的聊天内容,降低重复回答或者“神游”的可能性;在生成长文时,连续性也会更强。
就上述两个改进而言,有业内人士分析,其究竟能够在应用层产生多大的威力,需分情况讨论。据悉,图像理解能力的提升,从理论上来讲,是比较大的突破。但其是否能够在各类场景中得到广泛应用,还取决于不同场景下的具体业务逻辑。需要对业务进行拆解后,进一步甄别是否具有多模态理解的需求,以及如何接入这样的能力。相比之下,文本处理能力的提升可能会在应用层被更迅速地采纳。
虽然GPT-4的上述改进在应用层能掀起何种波澜仍未可知,但能够确定的是,要想实现这样的能力提升,GPT-4无论是在模型架构、模型训练,还是迭代优化路径等各方面都会有一定的突破。
遗憾的是,由于本次OpenAI未在技术报告中透露有关模型参数、硬件、训练方法和训练数据量等细节,我们还无从得知,这些突破可能是什么。目前的已知努力是,OpenAI为了训练GPT-4,在过去两年里联合微软在Azure 云上重新搭建了一个专用的超算平台。
此外,在技术层面,OpenAI其实也公布了一些看似不那么重要,却是保障AI未来可以得到人类正确使用的关键突破。
例如,OpenAI构建了可预测扩展(predictable scaling)的深度学习堆栈,支持使用更少的计算量来评估模型训练性能,预测训练期间优化的指标(损失)。OpenAI表示,通过从使用相同方法训练,但使用万分之一的计算量对模型训练性能进行了推断,准确预测了 GPT-4 在其内部代码库上的最终损失。
OpenAI将这一突破更多地聚焦于“安全性”——“我们认为,准确预测未来的机器学习能力是安全的重要组成部分,但相对于其潜在的影响,它并没有得到足够的关注(尽管我们受到了几家机构的鼓励)。我们正在加大努力开发方法,为社会提供更好的指导,了解未来系统的期望,我们希望这成为该领域的共同目标。”
然而值得一提的是,有业内人士告诉36氪,这其实也意味着模型训练正朝着更加科学、结果可预测的方向前进,将有望减少不必要的资源浪费。比如,如果预测训练性能不好,或许就没必要使用更多的数据进行训练了。但同时,该人士也指出,还需要关注实现这个功能的技术路径,即对如何实现预测的详细解释。如果实现这样的预测工程难度较大,说明其可能不具有普适性。
GPT3.5是PreGPT4,所以只要6个月
OpenAI表示,他们已经在2022年8月就完成了模型训练,但是为了推出GPT4,又进行了6个月的迭代,而迭代主要是针对ChatGPT此前饱受诟病的点,比如事实性不够、风格难以控制、信息隔离不够好,等进行了提升:“利用对抗性测试计划和ChatGPT的经验教训,迭代调整GPT-4,在事实性、可操纵性和拒绝走出护栏方面取得了有史以来最好的结果。”
尽管GPT4的整体训练时长我们不得而知,但模型性能提升主要是得益于模型之前的预训练过程,因此只花了6个月的时间。
在官网上,OpenAI迭代调整的提升比例,比如事实性这个功能里,“在我们的内部对抗性事实评估中,GPT-4的得分比我们最新的GPT-3.5高40%”;在安全性角度,“与GPT-3.5相比,我们将模型响应不允许内容请求的趋势降低了82%,GPT-4根据我们的政策响应敏感请求(例如医疗建议和自我伤害)的频率增加了29%”。
40%、82%、29%,这些数字背后,迭代调整的时间仅有6个月。
作为OpenAI设计的一系列模型中的第五个,此前还出现了GPT - 1、GPT - 2 、 GPT - 3、GPT-3.5,前三个分别官宣于2018、2019、2020,GPT3已经出现了重大飞跃,参数是上一代的百倍,同时在商业上也表现出稳定性和实用性(比如估值15亿美元的JasperAI此前就使用的GPT3)。
此前OpenAI就曾表示,GPT3.5只是一个中间版本,或许叫“PreGPT4”会比“GPT3.5”更贴合,因为GPT3.5在技术路线上与之前有较大差异,是基于人工标注数据+强化学习的推理和生成。正如同ChatGPT最初是以“demo”形态被OpenAI推出,其原因也是为了测试在安全性、真实性等方面的改进空间。
而GPT4的整体训练,在官网上,OpenAI仅用了几段话作为简单描述。抽象来看,主要是从几个维度进行了加强训练:
基础模型训练:与之前的GPT模型一样,使用公开数据(如互联网数据)以及被许可的数据进行训练。数据语料库里包括数学问题的正确和不正确的解决方案,弱而强烈的推理,自相矛盾和一致的陈述,并代表了各种各样的意识形态和想法。
人工反馈强化学习(RLHF)微调模型:GPT-4具有与以前的模型类似的风险,例如产生有害的建议、错误代码或不准确的信息。为了了解风险程度,OpenAI聘请了来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的50多名专家来对抗性地测试该模型。GPT-4在RLHF培训期间纳入了额外的安全奖励信号,通过培训模型拒绝此类内容的请求来减少有害输出。为了防止模型拒绝有效请求,OpenAI从各种来源(例如,标记生产数据、人类红色组合、模型生成的提示)收集不同的数据集,并在允许和不允许的类别上应用安全奖励信号(具有正值或负值)。
可预测深度学习堆栈:GPT-4项目的一大重点是构建一个可预测的深度学习堆栈。由于GPT4模型更大, 因此如果用以往的方式把模型放在数据里跑一次,时间和计算成本都更高,而GPT4采用了新的方式,只需要用万分之一的计算量就可以预测出准确率。
这并不符合以往OpenAI的作风,也似乎与OpenAI创始人Sam Altman此前说到的OpenAI成立之初的愿景——AGI,让更多的人使用AI技术,并从中获利——并不相符。
讳莫如深的背后
3月15日,在GPT4推出之后,Google开放自家的大语言模型 API 「PaLM API」,此外还发布了一款帮助开发者快速构建 AI 程序的工具 MakerSuite。
3月,Google推出PaLM-E,其拥有5620亿参数,是GPT-3的三倍多,号称史上最大规模视觉语言模型。
2月底,Meta突然公布了一款全新的AI大型语言模型LLaMA,宣称可帮助研究人员降低生成式AI工具可能带来的“偏见、有毒评论、产生错误信息的可能性”等问题。并且仅用约1/10的参数规模,实现了匹敌OpenAI GPT-3、DeepMind Chinchilla、谷歌PaLM等主流大模型的性能表现。
此前,百度高调官宣会在3月16日上线文心一言。
36氪旗下官方公众号
👇🏻 真诚推荐你关注 👇🏻
微信扫码关注该文公众号作者