Redian新闻
>
超越GPT-4,Claude 3超大杯成新王!

超越GPT-4,Claude 3超大杯成新王!

公众号新闻



  新智元报道  

编辑:alan
【新智元导读】太疯狂了!Claude 3 Opus竟然干掉了GPT-4。在Chatbot Arena最新的聊天机器人对战排行榜中,Claude 3的超大杯成功登顶,就连最小的Claude 3 HaiKu都达到了GPT-4水平!

太疯狂了!Claude 3 Opus超越了GPT-4,成为新的国王!

今天,Chatbot Arena更新了聊天机器人对战的排行榜,在经过了时间的洗礼和群众的检验之后,之前略逊于GPT-4的Claude 3竟然反超了!

而且不仅仅是Claude 3的超大杯Opus成功登顶,藐视众生,Claude 3家族的整体表现都非常亮眼。

大杯Claude 3 Sonnet排到了第4,就连最小的Claude 3 HaiKu都达到了GPT-4水平!

那么相比于基准测试跑分,这个榜单的权威性如何?

Chatbot Arena(聊天机器人竞技场),由伯克利团队开发,每个模型在榜单上的得分,完全取决于真实人类用户的使用体验。

我们来看一下打分规则:

用户同时向两个匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的问题,然后根据回答投票给表现更好的模型;

如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;

如果在对话中透露了模型的身份,则不会计算投票。

Chatbot Arena平台收集了超过40万人的投票,来计算出这个大模型的等级分排行榜,最终找出谁是冠军。

显然,这回Claude 3赢麻了。

我们来看一下真实的战况:

在所有非平局对战中, A对B获胜的比例:

模型之间的对战次数(无平局):

GPT-4终于被干掉了,对此,有网友开始恶搞:

刚在当地超市看到Sam Altman,他一脸震惊地看着手机。几秒钟后,他真的倒下了,开始剧烈颤抖。经过2分钟的摇晃和尖叫,一群人围绕着他试图帮助他。但令人惊讶的是,他在2分钟后停止了颤抖和尖叫,站起来,拿起手机开始拨打一个号码。

“准备释放......”

咱也不知道Altman要放的是不是GPT-5。

网友表示,Claude确实要比GPT勤奋得多:

GPT-4-Turbo非常懒惰。在任何编码任务中,它都会跳过部分代码,并表示“你自己知道要放什么”,而Opus可以毫无遗漏地输出整个代码。

就连Claude-2也通过自己的勤奋和耐心感动了这位网友。

更有比较务实的网友指出,Haiku的排名更为重要,因为它是第一个可以以极低成本即时运行的LLM,并且具有足够高的智能来提供实时客户服务。

盲生你发现了华点!Claude 3 Haiku不仅与原始版本的GPT-4表现一样好,关键是相当便宜,在一些平台你甚至可以免费使用。

大家于是纷纷夸起了Claude 3 Haiku:

智能相当于GPT-4,价格比GPT-3.5便宜,而且据说模型可能只有20B大小。

有网友表示,OpenAI不行啦,现在Anthropic才是老大,一时间,平台内外充满了快活的空气。

ChatGPT 一年零增长

回过头来再看ChatGPT这边,从最初的高光、王者,到现在不能说泯然众人吧,反正多少有点寒酸了。

最近,有关统计平台曝出:ChatGPT在过去一年中居然零增长!

最近一段时间,ChatGPT一直被指责懒惰、系统提示臃肿,而另一方面竞争也愈演愈烈——Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。

对于几乎每个ChatGPT用例,现在都有大量垂直化的AI初创公司,致力于满足用户的需求,而不是满足于现有的ChatGPT界面和捆绑工具

它们有更好的UI选项(例如IDE和图像/文档编辑器)、更好的原生集成(例如用于cron重复操作)、更好的隐私/企业保护(例如用于医疗保健和金融),更细粒度的控制(GPT的默认RAG是幼稚且不可配置的)。

以下是一些网友列举了相关垂直领域的产品,以及公司的融资情况:

从某种意义上说,OpenAI的B2B和B2C部分相互竞争,这在某种程度上是良性竞争——OpenAI可以使用来自ChatGPT的RLHF数据进行训练。

而新的GPT商店可以看作是,OpenAI为了抓住这些垂直化需求的尝试。

——与其离开平台,到处支付20美元/月,为什么不留在ChatGPT内部而只需要支付一次,让OpenAI将理论上的收入分配给GPT创作者?

对此,大部分创作者也很明智,一般只向ChatGPT发布精简版的应用,作为自己主要平台的一个渠道。

在游戏机业务中,众所周知,购买决策往往是由平台独占游戏驱动的。从某种意义上说,ChatGPT的未来会以平台专属模型为特色。

所以,当Sora甚至是GPT-5公开发布时,一定会率先登陆自家的平台,也许那将是下一轮ChatGPT的增长点。


参考资料:
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《扫花游 - 听雪》UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免王小川旗下百川智能千亿大模型Baichuan 3,中文评测超越GPT-4;美国启动国家AI计划推动开放式AI研究丨AIGC日报GPT-4劲敌Claude 3来了,上下文和多模态显著提升:OpenAI是可被超越的大模型新王诞生!Claude 3首次超越GPT4谷歌深夜爆最强复仇杀器,超大杯Gemini Ultra硬刚GPT-4!19.99美元包月,84页技术报告更新通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选《丝路之约》&《牧马城市》一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4VGPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成【七律】銀婚贈友人突然爆火!超越GPT-4.0?这一产品引爆AI概念!飞行汽车延续涨势,昙花一现还是星辰大海...OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词AI在用 | 数学更生动,Claude-3直接生成勾股定理动画号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3Claude 3反超GPT-4竞技场登顶!小杯Haiku成开发者新宠:性价比无敌Claude 3全面超越GPT-4?我们上手实测了一波。Meta发布自我奖励机制,Llama在3轮训练后超越GPT-4我特别想收养这个孩子Claude 3破译OpenAI邮件密文:人类未来掌握在「谷歌」手中!马斯克怒斥应改名ClosedAI华为P系列超大杯曝光!折叠屏蓄势待发北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token看懂网飞版「三体」!Reka Core登场:挑战GPT-4、Claude 3Llama 3 超大杯有何惊喜?Meta 会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免她从谷歌离职创立“超大杯”版Excel,融了10个亿,跻身独角兽ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTs吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果逛台北的年货大街(多图)从谷歌离职创业,她做出“超大杯”版Excel,刚融了10个亿,跻身独角兽
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。