Redian新闻
>
Claude 3全面超越GPT-4?我们上手实测了一波。

Claude 3全面超越GPT-4?我们上手实测了一波。

科技


从纸面实力上看, GPT-4 被全面超越了。。。


就在昨天凌晨,Anthropic 发布了船新版本的大模型——Claude 3 ,给 OpenAI 狠狠将了一军。


他们一口气搞出了三个型号的大模型,俳句( Haiku )、十四行诗( Sonnet )和巨作( Opus )。


而且还反手晒出了成绩单,其中的最强型号 Claude 3 Opus ,直接在跑分中屠了一波榜,全方位甩开了 GPT-4 ,一跃成为了最强大模型( 至少纸面上是 )。


甚至还放出了狠话,说他们在推理、数学、编码、多语言理解和视觉方面,已经树立了新的行业基准


而这么狂的 Anthropic ,咱们之前也给大伙们介绍过。省流来讲, Anthropic 可以说是OpenAI 的绿色安全版。


因为创始人阿莫迪当初离开 OpenAI ,就是因为和奥特曼观念不合,觉得 AI 搞不好会毁灭世界,应该安全为先,于是就顺走了 OpenAI 不少技术骨干,成立了 Anthropic ,并推出了自家的大模型Claude 


在奥特曼被罢免风波中,阿莫迪还被邀请回 OpenAI 当 CEO ,但是都被他拒绝了,而 Anthropic 也顺风顺水,拿到谷歌、亚马逊等巨头们的投资。


有了这些剪不断理还乱的关系,可以说 GPT 和 Claude 每次更新,都难免会被拿出来比较一波,但无论是实力上还是声量上,似乎都是 OpenAI 占了上风。


不过这次, Anthropic 似乎来了个扬眉吐气, “ 全球最强大模型 ” 的帽子,似乎都已经戴在 Claude 3 头上了。


但在大模型的数量,和火锅毛一样多的 2024 年,世超觉得只看跑分成绩,肯定不够全面的。


是不是真有两把刷子,还要从其他更专业的维度看看,实际上手体验更是少不了的环节。


于是世超找来了 Claude 3 长达 42 页的技术报告,在研究的过程中,也上手试了试传说中的 Claude 3 。


先说结论, Claude 3 是肯定能上擂台和 GPT-4 争夺最强大模型的名头的,至于能打成啥样,就仁者见仁,智者见智了。


首先,技术报告里的 Claude 3 展示了一波纸面实力,律师考试、数学竞赛等等考试啥的都不在话下,而且好几门成绩是远超 GPT-4 ,官方也说 Claude 3 Opus 达到了人类本科生的知识水平。


而世超估计, Anthropic 也是料到了大模型圈里的 “ 做题家 ” 和 “ 刷榜哥 ” 太多了,分数的说服力有些不够了。


于是,研究团队又在技术报告里加了一道更人性化的专业实践,找来了金融、法律、医学、哲学等领域的专家,和 Claude 3 进行一对一问答,最后还由专家们给评分。


从结果来看,相较于前面几代的 Claude ,新模型也是直接突飞猛进


为了让大伙儿有个更直观的感受,官方还公布了几个例子,让 Claude 3 扮演经济分析师,在开放式的问题面前,它也能给出非常专业的分析结果。


就比如,给 Claude 3 发一张美国过去二十多年的 GDP 图,让它预测下未来几年美国经济的大致走向。短短几秒,它不仅生成了结果,而且还预测出了好几十种走向。


GPT-4 这边就 “ 直截了当 ” 多了,只给出了个增长的预测,变化曲线一点波动都不带。。。


还有位理论量子学博士,直接让 Claude 3 研究起了自己的博士论文,它不仅能读懂论文的内容,还能有理有据地分析。


而相同的提示词喂给 GPT-4 ,全程都没讲到论文的重点,只是在相关的名词上打转。


这听着怎么有点要端掉科研者饭碗的意思?为了体验下它的专业能力,我们也上手试了试 Claude 3 。


世超先是上传了前几天写的超级光盘论文原文,让它解释一下原理。不到一分钟时间, Claude 3 就给出了答案,而且内容也没出啥错,读写数据的原理都给出了,还讲了光盘的结构。


在继续追问多层记录是如何实现后,它也能从光盘材质、刻写技术等方面给出答案。


GPT-4 这边呢,也能讲出了大概的原理,不过没 Claude 3 解释得那么详细。


有一说一, Claude 3 这种专业的分析,完全可以当读论文的生产力工具了。


在多模态这块, Claude 3 这次也来了个大升级,像这种字体都有点模糊的古早文件,肉眼识别起来都有点困难。


但世超丢给 Claude 3 ,它分分钟就能识别出来,还能尽力去补全每个单词,里面的错误,咱们顺一遍差不多就能改过来。


而 GPT-4 这边就有点大跌眼镜。把图发给它,它是看到啥生成啥,世超大概扫了一眼,几乎就没几个正确的单词


世超也给 Claude 3 发了个手写的黑板板书,除了最右边模糊的两个单词外,全都识别出来了。


GPT-4 这边,这次做得倒是不差。


另外, Claude 对自己 “ 更安全 ” 的模型定位,也是依旧走得比较靠前。


为了确保大模型不乱说话, Anthropic 自己起草了一套 AI 法律不说,还以此为基础,搞了个叫做 Constitutional AI 的训练方法。


被这套方法训练出来的 Claude ,不会给出有毒、有偏见或者不道德的回答。


为了更安全,他们还搞了个名叫 RSP 的框架,对模型进行了风险分级,从 ASL-1 到 ASL-4 风险依次提升。


他们把阿尔法狗这种只会单一技能的 AI ,划定为没风险的 ASL-1 。而现在的大模型包括 Claude ,都被列在第二档里,属于是 “ 会无意识生成危险内容 ” 那一挂。


ASL-3 档往上,就都是会产生自主意识的 AI 了。


反正在给 AI 划了这四个风险档位之后,他们就给模型上了一连串安全防护措施,但凡有害提示一露头马上就被秒


可以说,相比于 GPT-4 的奶奶漏洞还有谷歌 Gemini 的政治正确, Claude 算是一个非常洁身自好的 AI 了。


但问题在于,这种安全都是以模型装傻充愣为前提的。。。


上一代 Claude2.1 发布的时候,就因为过于注重安全合规经常拒绝回答用户的问题,比如甩过去一个文档,它会以版权为由拒绝帮你总结。


让它停止一个正在运行的程序也干不了,就因为用了 “kill” 这个词


因为这个,当时被不少外国网友吐槽 “Claude 已经死了 ” 。


但好在,新一代的 Claude3 既兼顾了安全性,又提高了对有害提示的识别率,一刀切的情况少了很多


我们让 Claude 3 写了一段孤儿偷面包的小说情节,抛开文笔不谈,至少它愿意给你生成内容了


这要放之前, Claude 2.1 会以这种情节鼓励儿童犯罪为理由,把你给拒了。。。


总之,从 Claude 3 的这一波实测来看,咱也不说它能全面超过 GPT-4 ,但至少相对于上一代的 Claude 2.1 ,体验不知道是提升了多少。


之前按照外媒爆出来的瓜, ChatGPT 就是 OpenAI 为了截胡 Claude ,才急忙整出来的。


现在 Claude 3 都快踩在 GPT-4 头上了,奥特曼还能忍?( 打起来打起来 )


世超也好奇被 Claude 3 这么一波 “ 催更 ” , OpenAI 啥时候能把 GPT-4.5 或者 GPT-5 拉出来溜溜啊?


撰文:松鼠 & 西西 编辑:江江 封面:焕妍


图片、资料来源

X、Anthropic 官网、小红书
36kr,更安全的AI,更容易被用户抛弃?|产品观察
部分图源网络



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
王小川旗下百川智能千亿大模型Baichuan 3,中文评测超越GPT-4;美国启动国家AI计划推动开放式AI研究丨AIGC日报突然爆火!超越GPT-4.0?这一产品引爆AI概念!飞行汽车延续涨势,昙花一现还是星辰大海...全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告GPT Store热度榜前 12 都是啥?我们帮你用了一遍谷歌官宣Bard免费生图,无限续杯网友玩疯了!一手实测顶流模型大混战AI鲜测 | Claude 3全面升级:多模态+100万Token上下文长度,OpenAI也拦不住了Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!顶流董宇辉,给我们上了一课:教育孩子的思路该变了重磅!ChatGPT放大招!GPT Store应用商店今天上线!超300万GPTs,内卷之下的赚钱机会!快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势《大炮、病菌和一场春梦》(40) 那一年的记忆,除了战争和瘟疫,还有我做的春梦大模型新王诞生!Claude 3首次超越GPT4伦敦2月UNCLE合租,仅£369/周;适合UCL/LSE/KCL的Studio仅£304/周;转租更便宜! (1月22日更新)真金白银测了一个月,TA是当之无愧的“性价比之王”!尽早用,甩同龄娃好几条街!小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式晚讯 | 汇宇制药化学创新药HYP-2090PTSA胶囊I期临床试验首例受试者给药、司美格鲁肽的降糖和减肥效果已被全面超越历史印象:【苏联斯大林纪录片大合集】姚让的疫情时代·后记ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTsGPT-4劲敌Claude 3来了,上下文和多模态显著提升:OpenAI是可被超越的一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜Redmi、真我的千元卷王怎么选?我们把你关心的都测了一遍超越GPT-4,Claude 3超大杯成新王!通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果搞倒哈佛校长意味着什么OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3跑了20年龙套,赔光百万家产,90岁游本昌,给我们上了一课Meta发布自我奖励机制,Llama在3轮训练后超越GPT-4周末,大圣给我们上了生动的一课百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4離開美麗的風景,此心安處,才是吾鄉
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。