国际科技财经博客移民网络热点娱乐民生时事公众号

>

超越GPT-4，Claude 3超大杯成新王！

超越GPT-4，Claude 3超大杯成新王！

公众号新闻

2024-03-27 05:03

新智元报道

编辑：alan

【新智元导读】太疯狂了！Claude 3 Opus竟然干掉了GPT-4。在Chatbot Arena最新的聊天机器人对战排行榜中，Claude 3的超大杯成功登顶，就连最小的Claude 3 HaiKu都达到了GPT-4水平！

太疯狂了！Claude 3 Opus超越了GPT-4，成为新的国王！

今天，Chatbot Arena更新了聊天机器人对战的排行榜，在经过了时间的洗礼和群众的检验之后，之前略逊于GPT-4的Claude 3竟然反超了！

而且不仅仅是Claude 3的超大杯Opus成功登顶，藐视众生，Claude 3家族的整体表现都非常亮眼。

大杯Claude 3 Sonnet排到了第4，就连最小的Claude 3 HaiKu都达到了GPT-4水平！

那么相比于基准测试跑分，这个榜单的权威性如何？

Chatbot Arena（聊天机器人竞技场），由伯克利团队开发，每个模型在榜单上的得分，完全取决于真实人类用户的使用体验。

我们来看一下打分规则：

用户同时向两个匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的问题，然后根据回答投票给表现更好的模型；
如果一次回答不能确定，用户可以继续聊天，直到确定获胜者；
如果在对话中透露了模型的身份，则不会计算投票。

Chatbot Arena平台收集了超过40万人的投票，来计算出这个大模型的等级分排行榜，最终找出谁是冠军。

显然，这回Claude 3赢麻了。

我们来看一下真实的战况：

在所有非平局对战中， A对B获胜的比例：

模型之间的对战次数（无平局）：

GPT-4终于被干掉了，对此，有网友开始恶搞：

刚在当地超市看到Sam Altman，他一脸震惊地看着手机。几秒钟后，他真的倒下了，开始剧烈颤抖。经过2分钟的摇晃和尖叫，一群人围绕着他试图帮助他。但令人惊讶的是，他在2分钟后停止了颤抖和尖叫，站起来，拿起手机开始拨打一个号码。
“准备释放......”

咱也不知道Altman要放的是不是GPT-5。

网友表示，Claude确实要比GPT勤奋得多：

GPT-4-Turbo非常懒惰。在任何编码任务中，它都会跳过部分代码，并表示“你自己知道要放什么”，而Opus可以毫无遗漏地输出整个代码。

就连Claude-2也通过自己的勤奋和耐心感动了这位网友。

更有比较务实的网友指出，Haiku的排名更为重要，因为它是第一个可以以极低成本即时运行的LLM，并且具有足够高的智能来提供实时客户服务。

盲生你发现了华点！Claude 3 Haiku不仅与原始版本的GPT-4表现一样好，关键是相当便宜，在一些平台你甚至可以免费使用。

大家于是纷纷夸起了Claude 3 Haiku：

智能相当于GPT-4，价格比GPT-3.5便宜，而且据说模型可能只有20B大小。

有网友表示，OpenAI不行啦，现在Anthropic才是老大，一时间，平台内外充满了快活的空气。

ChatGPT 一年零增长

回过头来再看ChatGPT这边，从最初的高光、王者，到现在不能说泯然众人吧，反正多少有点寒酸了。

最近，有关统计平台曝出：ChatGPT在过去一年中居然零增长！

最近一段时间，ChatGPT一直被指责懒惰、系统提示臃肿，而另一方面竞争也愈演愈烈——Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。

对于几乎每个ChatGPT用例，现在都有大量垂直化的AI初创公司，致力于满足用户的需求，而不是满足于现有的ChatGPT界面和捆绑工具

它们有更好的UI选项（例如IDE和图像/文档编辑器）、更好的原生集成（例如用于cron重复操作）、更好的隐私/企业保护（例如用于医疗保健和金融），更细粒度的控制（GPT的默认RAG是幼稚且不可配置的）。

以下是一些网友列举了相关垂直领域的产品，以及公司的融资情况：

从某种意义上说，OpenAI的B2B和B2C部分相互竞争，这在某种程度上是良性竞争——OpenAI可以使用来自ChatGPT的RLHF数据进行训练。

而新的GPT商店可以看作是，OpenAI为了抓住这些垂直化需求的尝试。

——与其离开平台，到处支付20美元/月，为什么不留在ChatGPT内部而只需要支付一次，让OpenAI将理论上的收入分配给GPT创作者？

对此，大部分创作者也很明智，一般只向ChatGPT发布精简版的应用，作为自己主要平台的一个渠道。

在游戏机业务中，众所周知，购买决策往往是由平台独占游戏驱动的。从某种意义上说，ChatGPT的未来会以平台专属模型为特色。

所以，当Sora甚至是GPT-5公开发布时，一定会率先登陆自家的平台，也许那将是下一轮ChatGPT的增长点。

参考资料：

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

突然爆火！超越GPT-4.0？这一产品引爆AI概念！飞行汽车延续涨势，昙花一现还是星辰大海...对打GPT-4！Claude 3秘密武器曝光：Claude宪法多领域文献阅读超越GPT-4！深势科技发布科学文献多模态大模型Uni-SMART技术报告《丝路之约》&《牧马城市》70B模型秒出1000token，代码重写超越GPT-4o，来自OpenAI投资的代码神器Cursor团队 GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4 华为P系列超大杯曝光！折叠屏蓄势待发大模型新王诞生！Claude 3首次超越GPT4 吴恩达：别光盯着GPT-5，用GPT-4做个智能体可能提前达到GPT-5的效果 Claude 3全面超越GPT-4？我们上手实测了一波。神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观百川智能发布超千亿大模型Baichuan 3，中文评测超越GPT-4 一口气读完《沙丘》，零一万物宝藏API正式开箱！酷炫Demo实测，多模态中文图表体验超越GPT-4V AI早知道｜ChatGPT灰度测试多GPTs协同；新Bard逆袭GPT-4；百川智能发布Baichuan3 今日arXiv最热NLP大模型论文：超越GPT-4，清华发布网页导航智能体AutoWebGLM ChatGPT 大更新曝光！免费用户自动升级 GPT-4 ，还能创建 GPTs 神秘模型gpt2-chatbot实力被赞超越GPT-4：sam亲自确认，或是OpenAI全新模型全球最强大模型一夜易主，GPT-4时代终结！Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类｜亮马桥小纪严选号称中文评测超越 GPT-4，百川智能发布超千亿参数大模型 Baichuan 3 Meta发布自我奖励机制，Llama在3轮训练后超越GPT-4 GPT-4劲敌Claude 3来了，上下文和多模态显著提升：OpenAI是可被超越的 Llama 3 超大杯有何惊喜？Meta 会一直开源吗？当初为何笃信元宇宙？扎克伯格新访谈回应一切我特别想收养这个孩子手机可跑，3.8B参数量超越GPT-3.5！微软发布Phi-3技术报告：秘密武器是洗干净数据【七律】銀婚贈友人面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！通义千问再开源，Qwen1.5带来六种体量模型，性能超越GPT3.5 王小川旗下百川智能千亿大模型Baichuan 3，中文评测超越GPT-4；美国启动国家AI计划推动开放式AI研究丨AIGC日报从谷歌离职创业，她做出“超大杯”版Excel，刚融了10个亿，跻身独角兽 OpenAI劲敌出手！Claude 3正式发布，超越GPT-4，一口气读15万单词 OpenAI一夜干翻语音助手！GPT-4o模型强到恐怖，ChatGPT学会看屏幕，现实版Her来了逛台北的年货大街（多图）她从谷歌离职创立“超大杯”版Excel，融了10个亿，跻身独角兽谷歌深夜爆最强复仇杀器，超大杯Gemini Ultra硬刚GPT-4！19.99美元包月，84页技术报告更新《扫花游 - 听雪》

热点事件追踪