国际科技财经博客移民网络热点娱乐民生时事公众号

>

大模型新王诞生！Claude 3首次超越GPT4

大模型新王诞生！Claude 3首次超越GPT4

公众号新闻

2024-03-28 13:03

一觉醒来，大模型世界迎来了“新王登基”！

当地时间周三，聊天机器人竞技场Chatbot Arena更新对战排行榜，Claude 3反超GPT-4，一举摘得“最强王者”桂冠。

这次登顶榜首的是Claude 3系列的超大杯Opus，它以2分Elo的微弱优势，险胜GPT-4-1106-preview模型，GPT-4-0125-preview位列第三。

而且，不仅仅是超大杯Opus，Claude 3家族其他两个成员大杯Sonnet和小杯Haiku都杀进了TOP10，分别获得了第四和第六的好成绩。

小杯Haiku达到GPT-4级别

尤其是小杯Haiku，被官方单独拉出来表扬。

“Haiku给所有人留下了深刻的印象，根据我们的用户偏好，Claude 3 Haiku已经达到了GPT-4级别！”运行Chatbot Arena的LMSYS平台发帖大赞，“它的速度、功能和上下文长度目前在市场上是独一份的。”

更难等可贵的是，Haiku参数规模远远小于Opus以及任何的GPT-4模型，而且它的价格是Opus的1/60，响应速度却是它的10倍。

GPT-4自去年5月被纳入Chatbot Arena榜单以来一直牢牢霸占榜首，但现在，Claude 3凭借其出色表现，尤其是其在高级任务处理上的能力，成功颠覆了这一格局。

“这是史上第一次，面向高级任务的第一模型Opus和面向成本效率的Haiku均出自非OpenAI的供应商，”独立AI研究员Simon Willison在接受媒体采访时表示，“这非常让人欣慰——在这个领域，顶尖供应商的多样性对大家都有好处。”

“向新国王下跪！”

吃瓜网友也纷纷对Claude 3竖起大拇指。

“印象深刻，Very nice!”

还有人建议苹果将Claude设置为默认AI工具。

更有人直呼：“旧王已死。安息吧，GPT-4。”

“向新国王下跪！”

相比之下，网友对GPT-4的感情更加复杂。

“GPT-4变得非常蹩脚。”

最近几个月，有关GPT-4变懒的话题在网上闹得沸沸洋洋。

据称，GPT在高峰时段使用时，响应会变得非常缓慢且敷衍，甚至还会拒绝回应，单方面中断对话。

比如，它在进行编程工作时会习惯性地跳过部分代码，还出现了让人类自己写代码的名场面。

评分准确吗？

在一阵赞扬Claude 3的声音中，也夹杂着质疑的声音。

那么，Chatbot Arena究竟是如何给这些大模型打分的？

Chatbot Arena由伯克利大学主导团队的LMSYS开发。平台采用匿名、随机的方式让不同的大模型“打擂台”，并让人类用户担任裁判，最后根据大模型所得的积分进行排名。

具体来说，系统每次会随机选择两个不同的大模型和用户匿名聊天，让用户决定哪款大模型的表现更好一些，系统会根据用户的选择对大模型进行打分，然后将分数汇总整理形成最终的积分，最后以排行榜的形式呈现。

自推出以来，已有超过40万名用户成为Chatbot Arena的裁判。新一轮排名又吸引了7万名用户加入。

在本次激烈的“擂台赛”中，Claude 3通过成千上万次的对战，在GPT-4、Gemini等一众强劲对手中杀出重围，成为新的大模型之王。

值得一提的是，在评价一个大模型的好坏时，用户的“感觉”也就是体验感至关重要。

“所谓的参数标准无法真正评价大模型的价值，”AI软件开发者Anton Bacaj此前发贴说，“我刚和Claude 3 Opus进行了一场长时间的编码会话，真的是远超GPT-4。”

Claude 3的进化可能会令OpenAI感到一丝不安，一些用户已经开始在工作中“叛变”，放弃ChatGPT，转而使用Claude 3。

“自从有了Claude 3 Opus，我再也没有用过ChatGPT。”

软件开发者Pietro Schirano在X平台写道：“老实说，Claude 3 > GPT-4最令人震惊的事情之一，就是切换太容易了。”

但也有人指出，Chatbot Arena并没有考虑到添加工具后的表现，这恰恰是GPT-4的强项。

另外，Claude 3 Opus和GPT-4之间的分数非常接近，而且GPT-4已经问世一年了，预计今年某个时候会出现更强大的 GPT-4.5或GPT-5。

毋庸置疑，到那时这两大模型之间的PK将会更加激烈。

⭐星标华尔街见闻，好内容不错过⭐

本文不构成个人投资建议，不代表平台观点，市场有风险，投资需谨慎，请独立判断和决策。

觉得好看，请点“在看”

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

从Claude 3中提取数百万特征，首次详细理解大模型的「思维」民主选举的本意喂饭级教程！零代码搭建本地个人知识库，支持GPT4、Llama3、Kimi等十几种大模型中文得分世界第一，多项盲测并肩 GPT4o，这个国产大模型怎么就成了 AI 界的黑马？大模型的“瘦身”革命：巨头逐鹿轻量化大模型 | 大模型一周大事熵泱 ——第一章王小川旗下百川智能千亿大模型Baichuan 3，中文评测超越GPT-4；美国启动国家AI计划推动开放式AI研究丨AIGC日报 GPT-4劲敌Claude 3来了，上下文和多模态显著提升：OpenAI是可被超越的 “孟买首次超越北京”OpenAI劲敌出手！Claude 3正式发布，超越GPT-4，一口气读15万单词今日arXiv最热NLP大模型论文：超越GPT-4，清华发布网页导航智能体AutoWebGLM 长篇小说连载《此世，此生》第五十八章一全球最强大模型一夜易主，GPT-4时代终结！Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类｜亮马桥小纪严选超越GPT-4，Claude 3超大杯成新王！8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare AlphaGo核心算法增强，7B模型数学能力直逼GPT-4，阿里大模型新研究火了 GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4 超越 GPT-4V 和 Gemini Pro！HyperGAI 发布最新多模态大模型 HPT，已开源面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！70B模型秒出1000token，代码重写超越GPT-4o，来自OpenAI投资的代码神器Cursor团队手机可跑，3.8B参数量超越GPT-3.5！微软发布Phi-3技术报告：秘密武器是洗干净数据突然爆火！超越GPT-4.0？这一产品引爆AI概念！飞行汽车延续涨势，昙花一现还是星辰大海...GPT-4V只能排第二！华科大等发布多模态大模型新基准：五大任务14个模型全面测评神秘模型gpt2-chatbot实力被赞超越GPT-4：sam亲自确认，或是OpenAI全新模型多领域文献阅读超越GPT-4！深势科技发布科学文献多模态大模型Uni-SMART技术报告超越Sora极限，120秒超长AI视频模型诞生！GPT搜索引擎原型曝光！新模型GPT4-Lite驱动，虽然鸽了发布会但代码已上传对打GPT-4！Claude 3秘密武器曝光：Claude宪法一口气读完《沙丘》，零一万物宝藏API正式开箱！酷炫Demo实测，多模态中文图表体验超越GPT-4V AI早知道｜夸克上线大模型新产品“AI PPT”；昆仑万维首款 AI 游戏即将发布测试消耗大V混战百川智能发布超千亿大模型Baichuan 3，中文评测超越GPT-4 通义千问再开源，Qwen1.5带来六种体量模型，性能超越GPT3.5 Claude 3全面超越GPT-4？我们上手实测了一波。

热点事件追踪

美国公司裁员Layoff

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

美国堕胎权争议

2024-01-06 18:01

美国枪击案

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11

中美航班重磅消息！每周85班，直飞更方便！

微软、亚马逊、谷歌大裁员！哪些科技和零售公司有缩减规模计划？

中国外长王毅：中美关系已经止跌回稳

脱轨事故造成20多人受伤联邦调查纽约市全部地铁系统

更多 2024-06-08 的新闻