Redian新闻
>
大模型新王诞生!Claude 3首次超越GPT4

大模型新王诞生!Claude 3首次超越GPT4

公众号新闻

一觉醒来,大模型世界迎来了“新王登基”!

当地时间周三,聊天机器人竞技场Chatbot Arena更新对战排行榜,Claude 3反超GPT-4,一举摘得“最强王者”桂冠。

这次登顶榜首的是Claude 3系列的超大杯Opus,它以2分Elo的微弱优势,险胜GPT-4-1106-preview模型,GPT-4-0125-preview位列第三。

而且,不仅仅是超大杯Opus,Claude 3家族其他两个成员大杯Sonnet和小杯Haiku都杀进了TOP10,分别获得了第四和第六的好成绩。


小杯Haiku达到GPT-4级别

尤其是小杯Haiku,被官方单独拉出来表扬。

“Haiku给所有人留下了深刻的印象,根据我们的用户偏好,Claude 3 Haiku已经达到了GPT-4级别!”运行Chatbot Arena的LMSYS平台发帖大赞,“它的速度、功能和上下文长度目前在市场上是独一份的。”

更难等可贵的是,Haiku参数规模远远小于Opus以及任何的GPT-4模型,而且它的价格是Opus的1/60,响应速度却是它的10倍。

GPT-4自去年5月被纳入Chatbot Arena榜单以来一直牢牢霸占榜首,但现在,Claude 3凭借其出色表现,尤其是其在高级任务处理上的能力,成功颠覆了这一格局。

这是史上第一次,面向高级任务的第一模型Opus和面向成本效率的Haiku均出自非OpenAI的供应商,”独立AI研究员Simon Willison在接受媒体采访时表示,“这非常让人欣慰——在这个领域,顶尖供应商的多样性对大家都有好处。”


“向新国王下跪!”

吃瓜网友也纷纷对Claude 3竖起大拇指。

“印象深刻,Very nice!”

还有人建议苹果将Claude设置为默认AI工具。

更有人直呼:“旧王已死。安息吧,GPT-4。”

“向新国王下跪!”


相比之下,网友对GPT-4的感情更加复杂。

“GPT-4变得非常蹩脚。”

最近几个月,有关GPT-4变懒的话题在网上闹得沸沸洋洋。

据称,GPT在高峰时段使用时,响应会变得非常缓慢且敷衍,甚至还会拒绝回应,单方面中断对话。

比如,它在进行编程工作时会习惯性地跳过部分代码,还出现了让人类自己写代码的名场面


评分准确吗?

在一阵赞扬Claude 3的声音中,也夹杂着质疑的声音。

那么,Chatbot Arena究竟是如何给这些大模型打分的?

Chatbot Arena由伯克利大学主导团队的LMSYS开发。平台采用匿名、随机的方式让不同的大模型“打擂台”,并让人类用户担任裁判,最后根据大模型所得的积分进行排名。

具体来说,系统每次会随机选择两个不同的大模型和用户匿名聊天,让用户决定哪款大模型的表现更好一些,系统会根据用户的选择对大模型进行打分,然后将分数汇总整理形成最终的积分,最后以排行榜的形式呈现。

自推出以来,已有超过40万名用户成为Chatbot Arena的裁判。新一轮排名又吸引了7万名用户加入。

在本次激烈的“擂台赛”中,Claude 3通过成千上万次的对战,在GPT-4、Gemini等一众强劲对手中杀出重围,成为新的大模型之王。

值得一提的是,在评价一个大模型的好坏时,用户的“感觉”也就是体验感至关重要。

“所谓的参数标准无法真正评价大模型的价值,”AI软件开发者Anton Bacaj此前发贴说,“我刚和Claude 3 Opus进行了一场长时间的编码会话,真的是远超GPT-4。”

Claude 3的进化可能会令OpenAI感到一丝不安,一些用户已经开始在工作中“叛变”,放弃ChatGPT,转而使用Claude 3。

“自从有了Claude 3 Opus,我再也没有用过ChatGPT。”

软件开发者Pietro Schirano在X平台写道:“老实说,Claude 3 > GPT-4最令人震惊的事情之一,就是切换太容易了。”

但也有人指出,Chatbot Arena并没有考虑到添加工具后的表现,这恰恰是GPT-4的强项。

另外,Claude 3 Opus和GPT-4之间的分数非常接近,而且GPT-4已经问世一年了,预计今年某个时候会出现更强大的 GPT-4.5或GPT-5。

毋庸置疑,到那时这两大模型之间的PK将会更加激烈。

⭐星标华尔街见闻,好内容不错过
本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。

觉得好看,请点“在看”

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V大V混战号称超越 GPT-4 的大模型们,有多少靠的是「抄袭」民主选举的本意Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!“孟买首次超越北京”通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!突然爆火!超越GPT-4.0?这一产品引爆AI概念!飞行汽车延续涨势,昙花一现还是星辰大海...今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词AI早知道|夸克上线大模型新产品“AI PPT”;昆仑万维首款 AI 游戏即将发布测试全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3超越GPT-4,Claude 3超大杯成新王!吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3消耗全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一熵泱 ——第一章开源大模型火了!(附99个大模型微调模型/数据/工具)!GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评长篇小说连载《此世,此生》第五十八章一GPT-4劲敌Claude 3来了,上下文和多模态显著提升:OpenAI是可被超越的全新开源AI代码工具诞生!超越谷歌DeepMind旗下AlphaCode大模型新时代,小公司靠边站?Claude 3全面超越GPT-4?我们上手实测了一波。超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告王小川旗下百川智能千亿大模型Baichuan 3,中文评测超越GPT-4;美国启动国家AI计划推动开放式AI研究丨AIGC日报张鹏对谈安克阳萌:GPU 和 Transformer 可能是中间态,机器人+大模型会诞生超级品类百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4超越Sora极限,120秒超长AI视频模型诞生!最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。