国际科技财经博客移民网络热点娱乐民生时事公众号

>

Claude 3全面超越GPT-4？我们上手实测了一波。

Claude 3全面超越GPT-4？我们上手实测了一波。

2024-03-05 17:03

从纸面实力上看， GPT-4 被全面超越了。。。

就在昨天凌晨，Anthropic 发布了船新版本的大模型——Claude 3 ，给 OpenAI 狠狠将了一军。

他们一口气搞出了三个型号的大模型，俳句（ Haiku ）、十四行诗（ Sonnet ）和巨作（ Opus ）。

而且还反手晒出了成绩单，其中的最强型号 Claude 3 Opus ，直接在跑分中屠了一波榜，全方位甩开了 GPT-4 ，一跃成为了最强大模型（至少纸面上是）。

甚至还放出了狠话，说他们在推理、数学、编码、多语言理解和视觉方面，已经树立了新的行业基准。

而这么狂的 Anthropic ，咱们之前也给大伙们介绍过。省流来讲， Anthropic 可以说是OpenAI 的绿色安全版。

因为创始人阿莫迪当初离开 OpenAI ，就是因为和奥特曼观念不合，觉得 AI 搞不好会毁灭世界，应该安全为先，于是就顺走了 OpenAI 不少技术骨干，成立了 Anthropic ，并推出了自家的大模型Claude 。

在奥特曼被罢免风波中，阿莫迪还被邀请回 OpenAI 当 CEO ，但是都被他拒绝了，而 Anthropic 也顺风顺水，拿到谷歌、亚马逊等巨头们的投资。

有了这些剪不断理还乱的关系，可以说 GPT 和 Claude 每次更新，都难免会被拿出来比较一波，但无论是实力上还是声量上，似乎都是 OpenAI 占了上风。

不过这次， Anthropic 似乎来了个扬眉吐气， “ 全球最强大模型 ” 的帽子，似乎都已经戴在 Claude 3 头上了。

但在大模型的数量，和火锅毛一样多的 2024 年，世超觉得只看跑分成绩，肯定不够全面的。

是不是真有两把刷子，还要从其他更专业的维度看看，实际上手体验更是少不了的环节。

于是世超找来了 Claude 3 长达 42 页的技术报告，在研究的过程中，也上手试了试传说中的 Claude 3 。

先说结论， Claude 3 是肯定能上擂台和 GPT-4 争夺最强大模型的名头的，至于能打成啥样，就仁者见仁，智者见智了。

首先，技术报告里的 Claude 3 展示了一波纸面实力，律师考试、数学竞赛等等考试啥的都不在话下，而且好几门成绩是远超 GPT-4 ，官方也说 Claude 3 Opus 达到了人类本科生的知识水平。

而世超估计， Anthropic 也是料到了大模型圈里的 “ 做题家 ” 和 “ 刷榜哥 ” 太多了，分数的说服力有些不够了。

于是，研究团队又在技术报告里加了一道更人性化的专业实践，找来了金融、法律、医学、哲学等领域的专家，和 Claude 3 进行一对一问答，最后还由专家们给评分。

从结果来看，相较于前面几代的 Claude ，新模型也是直接突飞猛进。

为了让大伙儿有个更直观的感受，官方还公布了几个例子，让 Claude 3 扮演经济分析师，在开放式的问题面前，它也能给出非常专业的分析结果。

就比如，给 Claude 3 发一张美国过去二十多年的 GDP 图，让它预测下未来几年美国经济的大致走向。短短几秒，它不仅生成了结果，而且还预测出了好几十种走向。

GPT-4 这边就 “ 直截了当 ” 多了，只给出了个增长的预测，变化曲线一点波动都不带。。。

还有位理论量子学博士，直接让 Claude 3 研究起了自己的博士论文，它不仅能读懂论文的内容，还能有理有据地分析。

而相同的提示词喂给 GPT-4 ，全程都没讲到论文的重点，只是在相关的名词上打转。

这听着怎么有点要端掉科研者饭碗的意思？为了体验下它的专业能力，我们也上手试了试 Claude 3 。

世超先是上传了前几天写的超级光盘论文原文，让它解释一下原理。不到一分钟时间， Claude 3 就给出了答案，而且内容也没出啥错，读写数据的原理都给出了，还讲了光盘的结构。

在继续追问多层记录是如何实现后，它也能从光盘材质、刻写技术等方面给出答案。

GPT-4 这边呢，也能讲出了大概的原理，不过没 Claude 3 解释得那么详细。

有一说一， Claude 3 这种专业的分析，完全可以当读论文的生产力工具了。

在多模态这块， Claude 3 这次也来了个大升级，像这种字体都有点模糊的古早文件，肉眼识别起来都有点困难。

但世超丢给 Claude 3 ，它分分钟就能识别出来，还能尽力去补全每个单词，里面的错误，咱们顺一遍差不多就能改过来。

而 GPT-4 这边就有点大跌眼镜。把图发给它，它是看到啥生成啥，世超大概扫了一眼，几乎就没几个正确的单词。

世超也给 Claude 3 发了个手写的黑板板书，除了最右边模糊的两个单词外，全都识别出来了。

GPT-4 这边，这次做得倒是不差。

另外， Claude 对自己 “ 更安全 ” 的模型定位，也是依旧走得比较靠前。

为了确保大模型不乱说话， Anthropic 自己起草了一套 AI 法律不说，还以此为基础，搞了个叫做 Constitutional AI 的训练方法。

被这套方法训练出来的 Claude ，不会给出有毒、有偏见或者不道德的回答。

为了更安全，他们还搞了个名叫 RSP 的框架，对模型进行了风险分级，从 ASL-1 到 ASL-4 风险依次提升。

他们把阿尔法狗这种只会单一技能的 AI ，划定为没风险的 ASL-1 。而现在的大模型包括 Claude ，都被列在第二档里，属于是 “ 会无意识生成危险内容 ” 那一挂。

ASL-3 档往上，就都是会产生自主意识的 AI 了。

反正在给 AI 划了这四个风险档位之后，他们就给模型上了一连串安全防护措施，但凡有害提示一露头马上就被秒。

可以说，相比于 GPT-4 的奶奶漏洞还有谷歌 Gemini 的政治正确， Claude 算是一个非常洁身自好的 AI 了。

但问题在于，这种安全都是以模型装傻充愣为前提的。。。

上一代 Claude2.1 发布的时候，就因为过于注重安全合规经常拒绝回答用户的问题，比如甩过去一个文档，它会以版权为由拒绝帮你总结。

让它停止一个正在运行的程序也干不了，就因为用了 “kill” 这个词。

因为这个，当时被不少外国网友吐槽 “Claude 已经死了 ” 。

但好在，新一代的 Claude3 既兼顾了安全性，又提高了对有害提示的识别率，一刀切的情况少了很多。

我们让 Claude 3 写了一段孤儿偷面包的小说情节，抛开文笔不谈，至少它愿意给你生成内容了。

这要放之前， Claude 2.1 会以这种情节鼓励儿童犯罪为理由，把你给拒了。。。

总之，从 Claude 3 的这一波实测来看，咱也不说它能全面超过 GPT-4 ，但至少相对于上一代的 Claude 2.1 ，体验不知道是提升了多少。

之前按照外媒爆出来的瓜， ChatGPT 就是 OpenAI 为了截胡 Claude ，才急忙整出来的。

现在 Claude 3 都快踩在 GPT-4 头上了，奥特曼还能忍？（打起来打起来）

世超也好奇被 Claude 3 这么一波 “ 催更 ” ， OpenAI 啥时候能把 GPT-4.5 或者 GPT-5 拉出来溜溜啊？

撰文：松鼠 & 西西编辑：江江封面：焕妍

图片、资料来源：

X、Anthropic 官网、小红书

36kr，更安全的AI，更容易被用户抛弃？｜产品观察

部分图源网络

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

网传Llama 3比肩GPT-4？别闹了《大炮、病菌和一场春梦》(40) 那一年的记忆，除了战争和瘟疫，还有我做的春梦多领域文献阅读超越GPT-4！深势科技发布科学文献多模态大模型Uni-SMART技术报告突然爆火！超越GPT-4.0？这一产品引爆AI概念！飞行汽车延续涨势，昙花一现还是星辰大海...历史印象：【苏联斯大林纪录片大合集】全球最强大模型一夜易主，GPT-4时代终结！Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类｜亮马桥小纪严选通义千问再开源，Qwen1.5带来六种体量模型，性能超越GPT3.5 快消外企社招 | Lagardère拉格代尔，世界三大旅行零售商之一，百年外企，平均月薪17.2k，0经验可投，留学生有优势小模型性能直逼GPT-4？北航等提出基于强弱模型协同的ICL增强新范式大模型新王诞生！Claude 3首次超越GPT4 顶流董宇辉，给我们上了一课：教育孩子的思路该变了伦敦2月UNCLE合租，仅£369/周;适合UCL/LSE/KCL的Studio仅£304/周；转租更便宜! (1月22日更新)離開美麗的風景，此心安處，才是吾鄉 Claude 3终于来了，最强大模型易主？不，网友亲测了才算数！效果超越Gen-2！字节最新视频生成模型，一句话让绿巨人戴上VR眼镜 Redmi、真我的千元卷王怎么选？我们把你关心的都测了一遍 GPT Store热度榜前 12 都是啥？我们帮你用了一遍参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？姚让的疫情时代·后记王小川旗下百川智能千亿大模型Baichuan 3，中文评测超越GPT-4；美国启动国家AI计划推动开放式AI研究丨AIGC日报 AI鲜测 | Claude 3全面升级：多模态+100万Token上下文长度，OpenAI也拦不住了晚讯 | 汇宇制药化学创新药HYP-2090PTSA胶囊I期临床试验首例受试者给药、司美格鲁肽的降糖和减肥效果已被全面超越 OpenAI劲敌出手！Claude 3正式发布，超越GPT-4，一口气读15万单词跑了20年龙套，赔光百万家产，90岁游本昌，给我们上了一课今日arXiv最热NLP大模型论文：超越GPT-4，清华发布网页导航智能体AutoWebGLM GPT-4劲敌Claude 3来了，上下文和多模态显著提升：OpenAI是可被超越的百川智能发布超千亿大模型Baichuan 3，中文评测超越GPT-4 谷歌官宣Bard免费生图，无限续杯网友玩疯了！一手实测顶流模型大混战一口气读完《沙丘》，零一万物宝藏API正式开箱！酷炫Demo实测，多模态中文图表体验超越GPT-4V 周末，大圣给我们上了生动的一课 Meta发布自我奖励机制，Llama在3轮训练后超越GPT-4 刚刚，这个全面超越 GPT-4 的大模型，正式推出了 iOS 应用 | 附下载链接超越GPT-4，Claude 3超大杯成新王！神秘模型gpt2-chatbot实力被赞超越GPT-4：sam亲自确认，或是OpenAI全新模型搞倒哈佛校长意味着什么

热点事件追踪