击败90%的人类，更聪明更强大的GPT-4来了

2023-03-16 01:03

北京时间3月15日凌晨，凭借ChatGPT掀起人工智能应用热潮的OpenAI发布了最新作品——GPT-4。它可以接收图像和文本输入，输出文本，“比以往更具创造性和协作性”，并且“由于它有更广泛的常识和解决问题的能力，可以更准确地解决难题。”

“GPT-4是世界第一款高体验，强能力的先进AI系统，我们希望很快把它推向所有人”，OpenAI工程师表示，GPT-4是OpenAI努力扩展深度学习的最新里程碑，旨在成为驱动聊天机器人和从搜索引擎到网络私人辅导等各种其他系统的底层引擎。

在了解GPT-4之前，首先，

GPT到底是什么？

ChatGPT稍微好理解一点，Chat是聊天，那GPT呢？

GPT，全称为Generative Pre-trained Transformer（生成式预训练框架），其利用无监督学习技术，通过大量数据来形成快速反馈。

1956年“达特茅斯会议”上创造“人工智能”这个术语，随后全球迎来了 AI 技术发展阶段。

2016年谷歌DeepMind的AlphaGo击败了韩国围棋冠军李世石，AI 算法、算力、数据“三驾马车”获得了突破性技术进展。

但问题在于，机器学习利用循环神经网络(RNN) ——序列数据或时序数据的人工神经网络来处理文字，使得文字按顺序一个个处理，没办法同时进行大量学习。

因此2017年，谷歌团队在论文“Attention Is All You Need”中提出了新的学习框架Transformer，以解决此问题。

Attention机制能让机器同时学习大量的文字，训练速度效率大大提升。

基于Transformer框架，OpenAI进行了新的研究学习GPT。

2018年6月，OpenAI发布第一代GPT，2019年11月发布GPT-2，2021年发布了1750亿参数量的GPT-3，不仅可以更好地答题、翻译、写文章，还带有一些数学计算的能力等，而ChatGPT是微调之后的GPT-3.5消费级应用。

OpenAI表示，团队花了6个月的时间使用对抗性测试程序和ChatGPT的经验教训，对GPT-4进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

“GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。”

那么GPT-4比前辈们到底厉害在哪里呢？

它可以读懂图像

GPT-4与其前辈之间最大最明显的实际区别是，它可以在处理文字的同时处理图像。GPT-4是一个大型多模态模型，意味着它可以同时解析图像和文本，而GPT-3.5只能处理文本。GPT-4可以分析图像的内容并将这些信息与书面问题联系起来。(虽然它不能像DALL-E、Midjourney或Stable Diffusion那样生成图像）。

比如，给它一张气球被线拴在地上的图片，然后提问如果把线割断会发生什么，GPT-4会回答“气球会飞走”。

输入一张打开的冰箱的照片，询问GPT-4可以用冰箱里的这些食材做些什么，它能给出合适的例子。

更厉害的是，仅仅根据一张手绘的草图，GPT-4就能创建一个能运行的网站。

GPT-4能读懂图像，还能解释一张图到底搞笑的、不正常的点在哪里，比如以下这个例子：

基于这样的功能，OpenAI已经在与初创公司Be My Eyes合作，该公司使用物体识别或人类志愿者来帮助有视力问题的人。

识别图像的功能并不完全是独一无二的，很多应用程序提供基本的物体识别，如苹果的放大镜，但OpenAI声称GPT-4可以“产生与人类志愿者相同水平的背景和理解”——解释用户周围的世界，总结杂乱的网页，或回答有关它“看到”的问题。这些功能尚未上线，但“将在数周内进入用户手中”。

其他公司显然也在试验GPT-4的图像识别能力。Diagram公司的创始人Jordan Singer说，他们正在努力将这项技术添加到其人工智能设计助理工具中，以增加诸如可以评论设计的聊天机器人和可以帮助生成设计的工具。

它更擅长玩文字游戏了

OpenAI说，GPT-4比以往更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务，如创作歌曲、编写剧本或学习用户的写作风格。

比如让GPT-4用字母“g”开头的单词概括OpenAI的公司简介：

比如让它用一句话简述灰姑娘的故事情节，而且这句话的每个词的首字母要从A到Z依次排列……不得不说，这道题还真难：

看完GPT-4的回答，可以说真的是impressive。

它可以处理更多的文本

人工智能语言模型一直受限于它们能在短期记忆中保存的文本数量（即：用户的问题和系统的答案中所包含的文本）。但是OpenAI已经为GPT-4大幅扩展了这些能力。它现在可以一次性处理整个科学论文和长篇小说，使其能够回答更复杂的问题，并在任何特定的查询中连接更多的细节。

将一整篇论文上传给GPT-4，GPT-4可以在极短时间内完成了阅读，并给出清晰的总结摘要。

值得注意的是，GPT-4本身并没有字符或字数，而是以一种被称为“标记”的单位来衡量其输入和输出。这个标记化过程相当复杂，但你需要知道的是，一个标记大约等于四个字符，75个单词一般要占用100个左右的标记。

在任何给定的查询中，GPT-3.5能够使用的最大标记数约为4000个，这相当于3000多个单词。相比之下，GPT-4可以处理约32,000个标记，根据OpenAI的说法，这大约是25,000个单词。而且它“仍在优化”更长的语境，但更高的限制意味着该模型应该能够解锁以前不容易做到的用例。

它考试更厉害了，击败90%的人类

OpenAI关于GPT-4的技术报告中的一个突出指标是它在一系列标准化测试中的表现。

首先，在美国BAR律师执照统考模拟中，GPT-4得分约为前10%——击败了90%人类，而ChatGPT背后的GPT-3.5得分约为倒数10%；生物奥林匹克竞赛，GPT-3.5能达到后31%水平分位，GPT-4可达到前1%水平分位；研究生入学考试 (GRE) 、SAT数学考试成绩中，也有大幅提升，击败了80%以上的人类答题水平，而医学知识自测考试准确率达75%。

你可以在上面看到GPT-4和GPT-3在这些测试中的一些结果的比较。请注意，GPT-4现在相当稳定地掌握了各种AP模块，但在那些需要更多创造力的模块（即英语语言和英语文学考试）中仍然很吃力。

这是一个令人印象深刻的表现，尤其是与过去的人工智能系统所能取得的成绩相比，但理解这一成就还需要一点背景。

工程师和作家 Joshua Levy 在Twitter上说得最好，“软件能够通过为人类设计的测试并不意味着它具有与通过相同测试的人类相同的能力”。

计算机科学家Melanie Mitchell在一篇讨论ChatGPT在各种考试中的表现的博文中更详细地论述了这个问题。Mitchell指出，人工智能系统通过这些测试的能力依赖于它们保留和再现特定类型的结构化知识的能力。这并不一定意味着这些系统随后可以从这个基线上进行再创造。换句话说，人工智能可能是应试教育的终极例子。

它已经被用于主流产品

作为其GPT-4公告的一部分，OpenAI分享了几个关于使用该模型的故事。

其中包括Kahn Academy正在开发的人工智能导师功能，该功能旨在帮助学生完成课业，并为教师提供上课的思路，以及与语言学习软件Duolingo的整合，承诺提供类似的互动学习体验。

Duolingo的产品被称为Duolingo Max，增加了两个新功能。一个是 “简单解释”，说明为什么你的答案是正确或错误的，并让你询问其他例子或澄清。另一个是“角色扮演”模式，让你练习在不同的场景中使用一种语言，比如用法语点咖啡或用西班牙语制定远足计划。(该公司表示，GPT-4使 “没有两个对话是完全相同的”）。

其他公司也正在相关领域使用GPT-4。Intercom宣布它正在使用该模型升级其客户支持机器人，承诺该系统将连接到企业的支持文档来回答问题，而支付处理器Stripe正在内部使用该系统，根据其技术文档回答员工问题。

以及，冰岛政府正在使用GPT-4来帮助保护冰岛语言。

在OpenAI宣布之后，微软证实，帮助支持Bing Chat的模型实际上是GPT-4。

微软已经说过它使用的是“下一代OpenAI大型语言模型”，但却没有说是GPT-4，但知道这一点很好，这意味着我们也可以利用与Bing的互动中学到的一些东西来思考GPT-4。

也就是说……

它仍然会一本正经地胡说八道

很明显，Bing Chat的聊天体验并不完美。在所有的报道中，《纽约时报》科技编辑Kevin Roose的体验，是最令人毛骨悚然的，它表达了想要“活着”的意愿，还向Roose表白，并诱导他离开他的妻子……

这其中有些会是因为微软实现GPT-4的方式，但这些经验让人了解到建立在这些语言模型上的聊天机器人会如何犯错。

根据OpenAI的内部测试，GPT-4仍然会一本正经地胡说八道。这个问题被称为“幻觉”，困扰着所有领先的聊天机器人。因为这些系统不了解什么是真的，什么是假的，它们可能会产生完全错误的文本。

即日起，ChatGPT Plus付费订阅用户可以直接使用GPT-4版本的ChatGPT，未来则将对免费用户开放一定数量的GPT-4体验。同时，GPT-4 API 需要申请候选名单，已经开始邀请一些开发人员，并不断扩大邀请规模，每1000字符的价格为0.03美元；图像输入则处在研究预览阶段，仅对少部分用户开放。

强大的新人工智能从未如此迅速地从实验室直接走向消费者。OpenAI之外，谷歌也宣布它正在向第三方开发者提供自己的大型语言模型PaLM，并在谷歌Doc和Gmail中推出聊天机器人功能；人工智能公司Anthropic宣布了一个名为Claude的新大型语言模型，包括Notion和Quora在内的一些公司已经在试用。全球已经进入了 AI 大模型军备竞赛。

👆

GPT-4的冷笑话，感受一下～

良仓今日好物

👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章