ChatGPT升级版！GPT-4 能识图能算税，升级成考霸，华裔AI科学家点评：它可以自己考进斯坦福了

公众号新闻

2023-03-15 16:03

北美华人论坛请访问：huaren.us或者点击下方“阅读原文”可下载官网APP

在ChatGPT发布仅仅4个月后，OpenAI 正式对外发布了大型多模态模型GPT-4。

OpenAI发文称，GPT-4能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已做到人类水平的表现。

它强大到什么程度呢？

输入一张手绘草图，GPT-4能直接生成最终设计的网页代码。

它以高分通过各种标准化考试：SAT拿下700分，GRE几乎满分，逻辑能力吊打GPT-3.5。

GPT-4在各种考试中，有几个测试几乎接近了满分：

· USABO Semifinal 2020（美国生物奥林匹克竞赛）

· GRE Writing

GPT-4在高级推理能力上超越ChatGPT。以美国 BAR律师执照统考为例，GPT3.5可以达到 10%水平，GPT4可以达到90%水平。生物奥林匹克竞赛从GPT3.5的31%水平，直接飙升到 99%水平。

GPT-4的长度限制提升到32K tokens，即能处理超过25000个单词的文本，并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。

另外，OpenAI 还在为机器学习模型设计的传统基准上评估了GPT-4。从实验结果来看，GPT-4 大大优于现有的大型语言模型，以及大多数 SOTA 模型：

研究团队使用微软Azure Translate，将MMLU 基准——一套涵盖57个主题、14000个多项选择题翻译成多种语言。在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中，有24种语言下，GPT-4优于GPT-3.5 和其他大语言模型（Chinchilla、PaLM）的英语语言性能。

GPT-4在不同语种上的能力表现：中文的准确度大概在 80% 左右，已经要优于GPT-3.5的英文表现了。

在“AI编程助手”模式下，还可以让它轻松写代码，生成一个网站，或者更复杂的，写一个基于Discord的机器人，如果出现错误，比如要调用比较新的API而出错，甚至也不需要向它解释，而是把错误代码复制进去，它就会自动纠错，生成新的代码。

或者要它变身成TaxGPT，要它基于税务法则，来计算出一对夫妻要缴纳多少税，而且还要把计算理由一步步写出来，让人们可以检阅。

对于GPT-4展示出的专业能力，OpenAI联合创始人兼总裁格雷格·布洛克曼（Greg Brockman）大为赞赏，他表示那段税务文件，他自己读了半个小时也没有搞懂，然而GPT-4却可以很快给出答案。

或许这段不到一个小时的演示，才真正道出了GPT-4的强大之处——它不再仅仅是普通用户的“聊天机器人”，而将成为开发者手中的利器，在文本、编程、税务以及更多可以想见的领域，成为强大工具的开发基石。

OpenAI还贴心地发布了GPT-4开发者视频，手把手教你生成代码、检查错误信息、报税。

格雷格说了句有点扎心的话：“它并不完美，但你也一样。”

OpenAI称：“我们花了6个月的时间使用我们的对抗性测试程序，以及在ChatGPT身上累积的经验教训来迭代调整GPT-4，从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。”

“我们的 GPT-4 训练运行（至少对我们而言！）前所未有地稳定，成为第一个我们能够提前准确预测其训练性能的大型模型。”

目前OpenAI正通过ChatGPT和API发布GPT-4的文本输入功能，图像输入功能暂未开放。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权，4小时内最多只能发布100条信息。开发者也可以申请GPT-4 API，进入候补名单等待通过。

对此，李飞飞高徒、英伟达AI科学家吉姆·范（Jim Fan）点评道：‘GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分，几乎和人类考生没有区别。也就是说，GPT-4可以全靠自己考进斯坦福了。’（吉姆自己就是斯坦福毕业的！）

GPT-4已经开始具备一点点的幽默感。它已经可以讲出一些模式化的、质量不咋样的冷笑话——但是，至少它已经开始理解“幽默”这一人类特质。

比如《纽约时报》提供的案例：

在《纽约时报》提供的案例中，同样可以看出GPT-4可以同时解析文本和图像，这也使它能够解释更复杂的信息。不过，目前图像输入的权限尚未公开，所以目前还没看到更多例子来证明GPT-4在图像方面的处理能力。

在随后举行的Live Demo中，OpenAI也表示，还没有公开提供这部分技术，但已经在和一家名为Be My Eyes的公司进行合作，对方会使用GPT-4来构建服务。

不过，GPT-4仍存在改进空间。虽然GPT-4这波能力大升级，但之前ChatGPT会出现幻觉、胡说八道的毛病还是没能完全改掉。

用户体验反馈

GPT-4 刚发布，就有小伙伴迫不及待的体验的一把。

Twitter 用户@skirano 用GPT-4 实现了在不到一分钟的时间里，完整编写出一部乒乓游戏Pong。

@victalk_eth分享了自己的使用体验：

计算机和设计双学位毕业的王禹效在重度使用GPT-4 后，通过《少数派》分享了自己的感受。

在他看来，第四代模型 GPT-4重点强化了创作能力，如作曲，写小说等；增加了对于长文本的处理能力。最重要的，还是多了一种新的交互方式，就是对于图片的理解。也就是多模模型（ Large Multimodal Model）。

在之前 ChatGPT 的使用中，因为没法插入图片，所以有些需要表述的内容，需要靠文字描述给它。现在不需要了，直接一丢就行，让它自己理解去。GPT-4 除本身带了对于图片 OCR 外，还有对位置和细节的理解能力，比如下图中 GPT-4 的回复，是对于一张截图的描述。

从目前体验来看，GPT-4 的答复效果和 ChatGPT-3.5 Turbo 相比稍微提升，对于语义逻辑性的把握比老版本显著较好。但有个很大的问题，就是新模型的答复非常慢。他个人猜测有两个可能：

1. GPT-4 类似于 1750 亿参数的 GPT-3，目前是个未经充分优化的版本，而不是百亿参数级别的 ChatGPT 3.5 Turbo。这个模型从 OpenAI 限制访问次数也可以看出，实际上做答复也非常消耗 OpenAI 那边跑模型的算力。

2. GPT-4 因为是个多模模型，所以流程要比纯文本的 ChatGPT-3.5 Turbo 显著复杂。大概率包含了图片向量理解的类似 CLIP 文本和图片向量对齐的中间模型等操作，整体运作也更为复杂。

他也提出了自己的建议：“如果你的工作中：ChatGPT-3.5 Turbo 能满足你，用那个就行，完全够用。免费版本的 ChatGPT 3.5 英文版本没问题，中文使用不建议，它的中文的语料库和 ChatGPT-3.5 Turbo 相比差距比较大。”

应用面向开发者，越来越贵

当然，除了表现方面，还有一个明显的不同是，GPT-4比以前的版本“更大”，这意味着它已经接受了更多数据的训练，因此运行起来也更加昂贵。OpenAI 只表示它使用了微软Azure来训练模型，但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

这也意味使用它的成本越来越高。与ChatGPT不同的是，这个新模型目前还不能免费公开测试，虽然它鼓励开发者申请试用，但是将需要上等待名单。

新模型将提供给ChatGPT的付费用户ChatGPT Plus（每月20美元），也将作为API的一部分提供，允许开发者付费将AI集成到他们的应用程序中。OpenAI表示，多家公司已经将GPT-4集成到他们的产品中，包 Duolingo、Stripe和Khan Academy等。

不过无论如何，这一次，我们离真人工智能，更近了一步。

华人热评

honeybunch：这种测试knowledge型不是很好的比较baseline。我觉得一些没有正确答案的才是比较好的衡量标准。我前两天问一个问题：对于一个situation，what are the best options。结果ChatGPT写不出来，卡住了。ChatGPT现在对我就是一个summary tool，还是不能够和人竞争。

睿：我很好奇gpt-3.5怎么在sat数学拿到590/800的。。。它连小学简单的加减乘除都会做错。

我看了一下对gpt4更加详细的报道，感觉数学这一块是快给攻克了。之前的3.0版本的确不行。不过这个进步的速度，逻辑方面有大大的提升。gpt5应该就非常非常强了。看来AI时代的确到来了。机器人和人类无妨碍对话，建议和咨询已经在我们的面前了。

马公的几万行code不敢保证gpt4能找bug或者改code。不过下几代的确没有这个问题了。包括很多行业，人工智能会辅助人类一起工作了。

实在不敢相信来的那么快，人工智能会慢慢的充斥在世界的各个角落。

MMmm：看demo可以用来报税了。

what4m：人的大脑是量子化的，在量子计算机成熟前，ai还不会取代人。

shanggj：进步速度太快了。前几天还跟女儿说，大学认真学点 AI 的东西赶上这波革命。现在看，当心还没上完大学，革命就结束了。

orientexpress：就按两年一代的速度，现在说AI不行的方面，下一代也许就全面超越了。回顾一下AlphaGo, 刚出来还要人类棋谱来“喂”，下一代就完全脱离人类经验数据，从零开始自学习。

badgerbadger：不管文理，越是要求高的考试越不行。以后可能就1%的人有工作，其他99%吃福利。

Wugelvshi：当年深蓝攻克国际象棋的时候，就有人说，你看看象棋多简单，比起围棋来说，那简直就是小孩子的游戏。AI是攻克不了围棋的，那复杂度，AI是搞不定的。连围棋大师柯洁都曾经有同样的想法，直到阿尔法横空出世，现在大家干脆不提人工智能下棋这档子事情了，就和汽车比人跑的快一样，是默认的。现在变成了，如果一个普通人下的一手好棋，那得自己证明没作弊，不然就有人怀疑是不是屁股里塞了什么类似计算机或接收器的东西（感觉好奇怪）。

现在的数理逻辑，对gpt来说，就像当年的围棋。更何况现在这个GPT，从开始实现到现在，也就不到十年吧，已经有这么长足的进步了，谁知道二十年后会怎样呢。

本文由北美华人小编整理自北美华人e网、谷歌新闻、智东西、品玩、钛媒体和36氪等。版权归原作者所有，未经许可不得转载，否则将进行追究，图片来自网络。版权归原作者所有。如有侵权，请联系小编删除文章。

1、乾隆二十五年，后宫吃荔枝的分配方案，看完真是大跌眼镜，跟想象的完全不同！

https://huaren.us/showtopic.html?topicid=2814811&fid=398

2、第一代移民为什么这么难？

https://huaren.us/showtopic.html?topicid=2808787

3、真香！最近入手小相机。理光GR3和GR3X 随手拍照记录生活【更新作品分享】

https://huaren.us/showtopic.html?topicid=2808458

4、奔刚到的两套蓝色裙裙，今年特别爱蓝色～

https://huaren.us/showtopic.html?topicid=2800464&fid=225

5、當年唯一天后嫁給我時我長這樣 36歲

https://huaren.us/showtopic.html?topicid=2808688&fid=398

6、一直很困扰的问题？对法式深吻有多少女的喜欢

https://huaren.us/showtopic.html?topicid=2802593

7、40万的房子跌到30万，4百万的房子跌到3百万还是不一样

https://huaren.us/showtopic.html?topicid=2808775

8、这样洗头真的巨去油！经验分享

https://huaren.us/showtopic.html?topicid=2802382

9、【Cancun加勒比蓝】墨西哥Riviera Maya玛雅海滨之旅 [多图,更新完毕]

https://huaren.us/showtopic.html?topicid=2788073&fid=328

10、回报华人，写写抑郁的我是如何找到对生活的热情的

https://huaren.us/showtopic.html?topicid=2802492&fid=398

点击下方阅读原文即可下载北美华人e网论坛官网APP，仅限IOS用户。

↓↓↓

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章