Redian新闻
>
Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!

Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!

公众号新闻

作者 | Tina

3 月 5 日 ,OpenAI 的最大竞争对手 Anthropic 刚刚发布了新一代 AI 大模型系列 —— Claude 3。该系列包含三个模型,按能力由弱到强排列分别是:Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus。

比 GPT-4 更强?

Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

Claude 3 Sonnet 在智能和速度之间提供平衡,适合企业工作负载,如知识检索或销售自动化。

而 Claude 3 Opus 则是能力最强的模型,实现了接近人类的理解能力,适用于高度复杂的任务,在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

从 Anthropic 给出的 benchmark 测试数据来看,Opus 在多个指标上超过了 GPT-4。

在此之前,GPT-4 的综合性能全球绝对领先,能实测到的模型中只有这次 Claude 3 的上一代 Claude 2 超过了 GPT-3.5。

这次的 Claude 3,除了速度、理解、效率等综合性能之外,这次在长文本上有亮点,可以支持 200K Tokens 的上下文长度,另外也可以支持图像和文件输入了。

再值得参考的一点是价格:Opus 输入 15 刀 / 百万 tokens,输出 75 刀 / 百万 tokens;Sonnet 输入 3 刀 / 百万 tokens,输出 15 刀 / 百万 tokens;Haiku 输入 0.25 刀 / 百万 tokens,输出 1.25 刀 / 百万 tokens。

Anthropic 还放出了 42 页的技术报告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

在报告中,我们能看到 Claude 3 系列模型的训练数据、评估标准以及更详细的实验结果。

Anthropic 将 Claude 3 系列模型在推理、阅读理解、数学、科学和编程能力上,与竞品模型展开了比较,结果显示不仅超越了其他家模型,还在大多数情况下实现了新 SOTA。

效果好不好,还得看大家的测试结果

至于性能比较,虽然 Anthropic 表明自家模型比 GPT-4 更强,但很明显,大家对基准测试并不抱那么大的希望,“就像汽车厂商一样,他们肯定会说自家的车是最快最安全的。”

benchmark 已经不再那么具备参考意义,一是 Claude 3 比的是去年 3 月发出来的 GPT-4,二是选取指标上都会更“偏向”自己。

因此,不少网友用自己的方法进行了测试,来验证 Claude 3 是否有 Anthropic 宣传中的那么厉害。

其中一位网友说,第一眼感觉它比 GPT-4 好一点,比 Mistral 等好很多。比较特别的一件事情是,Claude 3 的回复似乎比之前的 LLM(大型语言模型)更人性化得多

“我知道现在你可能感觉不到,但你肯定会度过难关的。I know it may not feel like it right now, but you ARE going to get through this.”这句话中的 “ARE” 非常人性化,GPT-4 不会在不经提示的情况下用大写字母来强调。

下面这幅图,大家能看懂讲的是什么吗?

这是一位网友别出心裁的用 ASCII 进行提问,Claude 3 也用了 ASCII 进行回复。

“Claude 3 (mid) 现在也可以读取 ASCII 码了。我用 ASCII 询问一些问题,并要求它以 ASCII 形式回答。该死的,他们做到了。这是 GPT-4++ 级别哇!”

另外,在代码能力上,也有一些网友进行了测试。有位网友要求 Claude 3 画一副 3D 自画像,再渲染成代码,效果非常令人惊叹:

有一位名为 Ruben 的网友,专门设置了了一个测试来对比 Claude 3 和 ChatGPT 的能力。

他给出了一个网站 UI 界面,要求 Claude 3 和 ChatGPT 将其转为代码。Claude 3 拒绝了,而 ChatGPT 成功的执行了。Claude 3 的道德标准太高了?!

还有一位企业家 Rishabh Srivastava,在在 SQL-Eval 上对 Claude-3 进行了评估:https://github.com/defog-ai/sql-eval/tree/rishabh/claude-3,他得出的结论依然是GPT-4更好

“比 Claude 2 好得多,但距离 GPT-4 还有一段路要走 对于 SQL 生成,Opus 具有 GPT-4 Turbo 级别的性能。Sonnet 具有与 3.5-turbo 类似的性能,但速度也慢大约 4 倍。GPT-4 仍然明显更好。”  


这些测试结果,也许正如爱丁堡大学博士生符尧的分析:被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正能够把模型区分开的是 MATH 和 GPQA,“这些超级棘手的问题是 AI 模型下一步应该瞄准的目标”。

 活动推荐

AICon 全球人工智能与大模型开发与应用大会暨通用人工智能开发与应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

目前会议 8 折优惠购票,火热进行中,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

今日荐文


雷军、周鸿祎两会力挺大模型,隔壁印度GenAI却要被谷歌Gemini“扼杀”?


机器人再度大幅进化!阿西莫夫三法则还有效吗?| 大模型一周大事


OpenAI硬怼马斯克:没到AGI,就不开源;求职人潮“挤崩”智联招聘;周鸿祎、李志飞开AI 课,被网友质疑 | AI周报


试了下 Stable Video,我的建议是不如不用|AI 测评室


阿里最新图生视频模型效果好得可比肩Sora,但0代码“假”开源让国内外网友骂翻了天?

你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
全球最强开源模型一夜易主,1320亿参数推理飙升2倍脱口秀?不,这次是脱单秀AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型老钱:我也说两句朱令案卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了美国内战一触即发?不,更像是右翼的一场作秀算数不行、还不懂中国文化,大模型现在抢不了设计师的饭碗! | AI 测评室MTA多措施打击逃票!然而网友亲测:新闸门存在重大缺陷马来西亚对华免签,网友亲历从新加坡丝滑入境新山快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势Claude 3全面超越GPT-4?我们上手实测了一波。林生斌现状曝光,善恶到头终有报,网友:反噬终于来了!最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上全球最强开源模型一夜易主,1320亿参数推理飙升2倍!奖金十万美元!寻找数学能力最强大模型并发王座易主?Java 21 虚拟线程强势崛起,Go & Kotlin还稳得住吗 | 盘点开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有谁发明了氢弹?泰勒?奥本海默?不,是他伦敦2月UNCLE合租,仅£369/周;适合UCL/LSE/KCL的Studio仅£304/周;转租更便宜! (1月22日更新)全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选这是刚发布的人形机器人?不,分明是《午夜凶铃》现实版两首《山居秋暝》AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布开源大模型火了!(附99个大模型微调模型/数据/工具)!周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报7019 血壮山河之枣宜会战 骚然的枣阳乱战 11Atlas人形机器人刷屏!“钮祜禄·波士顿动力”三度易主后终于回归,网友:强到可怕什么开源PUA大师语录:“你想参与开源项目?不,你并不想”巨量算数&算数说:对话施华蔻——专业造美、让美发生,探索头发的美丽答案时间是治疗创伤的良药刚刚,英媒称凯特病情严重!查尔斯秘密探望,网友已炸锅!王室大权或交给安妮公主?小说 只为了那份纯纯的友谊深度 I 美国内战一触即发?不,更像是右翼的一场作秀大模型新王诞生!Claude 3首次超越GPT4AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。