Redian新闻
>
UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一

UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一

公众号新闻



  新智元报道  

编辑:润
【新智元导读】Claude 3不但数据集跑分领先,用户体验上也将成为最强大的LLM,GPT-5在哪里?

Claude 3和GPT-4到底谁厉害?

自从Claude 3发布以来,Anthropic官方对外宣称的说法就是「全面超越GPT-4」,在技术报告中给出的各个测试集的数据来看,也都几乎稳压GPT-4-Turbo一头。

但之前的新模型出来都要在跑分上「吊打」GPT-4,但实际体验却很少有真的能和GPT-4掰手腕的。

各行各业用户试用过Claude 3,发现体验似乎也比GPT-4要好。

在通过人类用户打分进行排名的lmsys LLM Arena中,Claude 3在不断积累了真实用户反馈分数之后,排名不断爬升。

众所周知,这个排行榜因为是基于人类对于大模型回答的真实感受打分来排名的,对于越早初现的LLM,就能积累越多的评价,分数也越容易刷高。
所以之前出现了Claude 1.0排名高于Claude 2.0的情况,就是因为如果提升不明显,先发布的模型得分会更有优势。

而距离Claude 3发布一个多星期的时间,它就已经和发布了几个月的GPT-4最新版并列第一了。

而且Claude 3大杯也超过了香草版的GPT-4。

因为LLM Arena评分系统对于先推出的模型有偏爱,所以按照这个趋势发展下去,Claude 3超过GPT-4,在用户体验上排名第一似乎只是一个时间问题了。

Claude 3也终于能让Anthropic在这个榜上打破之前的「新模型不如旧模型」的挤牙膏魔咒,彻底为自己的能力正名。

Claude 3出乎意料的用例


Claude 3和GPT-4比数学


这位网友设计了一个小实验,来比较两者的算数能力,Claude 3 Opus在数字上比GPT-4好得多!

9-10位数的加减法算数,Opus的整体准确率达到100%。

随着测试用例变得更加复杂,GPT-4 开始出错。GPT-3.5被彻底碾压了。

所有模型的乘法能力都不太行,但Opus表现最好,把GPT-4远远甩在了后边。

Opus是唯一能在5位数乘法上具有非零精度,并且在一般乘法上具有更好分数的模型。

因为Claude 3会像人类一样做乘法,并使用其他技巧来简化。

这个用例中,可以实打实地看到Claude 3和GPT-4强大的地方。

让Claude 3翻译古文物上的语言

网友突发奇想,找了一个古代文物,让Claude 3来尝试翻译斐斯托圆盘?

这是一件神秘的古代文物,由意大利考古学家Luigi Pernier于1908年在费斯托斯的米诺斯宫殿中发现。

- 直径为15厘米(5.9 英寸):

学者对翻译斐斯托斯圆盘进行了很多尝试,从宗教文件、日历、游戏,甚至乐谱的角度来理解它的内容,都没有成功。
网友先尝试让Claude 3明白自己要做什么?用提示词让他明白需要去把一些意义不明的符号归纳出能够被理解的内容。
然后网友向Claude提供了一些现成的信息,让他明白了迄今为止对费斯托圆盘的了解。
信息主要来自维基百科。
如果你要求它直接翻译或者破译内容,它会拒绝。
但是网友让他做一些推测性的翻译,Claude 3突然就开始干活了。
A面翻译:
「伟大的女神(标志 02)为城市/宫殿(标志 24)提供保护(标志 12)。人们(标志 01)带来祭品(标志 11、27)并在她的体内进行神圣仪式(标志 13、18)荣誉。女神的祝福(标志 35、38)确保了这片土地的繁荣(标志 28)和胜利(标志 02、12)。」
B面翻译:
「统治者(标志 07)带领战士(标志 22、08)进行一场伟大的战斗(标志 25、45)。敌人(标志 29)被击败(标志 24、07),胜利的军队(标志 22、 07)返回家园(标志23)。众神(标志06、09)对供品(标志27、39)感到满意,并给予土地(标志40)祝福(标志35、36)。」
现在,让我们将 A 面和 B 面结合起来。

「在伟大女神(标志 02)祝福的土地上,人们(标志 01)生活在她神圣的保护之下(标志 12)。他们将供品(标志 11、27)带到她神圣的宫殿(标志 24)并进行神圣的仪式。仪式(征兆 13、18)来纪念她的名字。女神将她的恩惠(征兆 35、38)赐予这片土地,赐予繁荣(征兆 28)和富足。
当敌人(标志29)威胁和平时,强大的统治者(标志07)聚集勇敢的战士(标志22、08)来保卫王国。在一场激烈的战斗(征兆25、45)中,他们战胜了敌人(征兆24、07)并凯旋(征兆22、07)回到自己的家园(征兆23)。诸神(征兆 06、09)向胜利的英雄微笑,并接受他们感激的奉献(征兆 27、39)。
在神的祝福(征兆 35、36)下,土地(征兆 40)再次繁荣。人们赞美伟大的女神和英勇的统治者,因为他们的忠诚和勇气赢得了上天的青睐。就这样,在女神永恒的保护和人们坚定不移的信仰下,生命的循环继续下去,世世代代如此,未来也将如此。」
再让他把内容中的各个名词做了解释:
神:解释中提到的「伟大女神」可能是米诺斯母神,例如「蛇女神」或希腊女神瑞亚的前身,瑞亚与生育和保护有关。

统治者:解释中的「强大的统治者」可能代表米诺斯国王或克里特神话中的传奇人物,例如米诺斯国王,据说他统治了克里特岛并委托建造了著名的迷宫。
王国:故事中的王国可能是指古代克里特岛本身,在青铜时代拥有繁荣的城市和先进的文明,例如克诺索斯、斐斯托斯或马利亚。

人民:解释中提到的「人民」可能代表米诺斯人民,以其复杂的艺术、建筑和宗教习俗而闻名。

战争:推测翻译中描述的「激烈的战斗」可能暗指克里特岛与邻国之间的历史冲突,例如来自希腊大陆的迈锡尼人,或者神话中的战斗,例如忒修斯与牛头怪之间的战斗。
而当网友要求Claude应用A面和克里特岛象形文字做比较,再把斐斯托斯圆盘符号和其他米诺斯文字之间的一对一映射。
Claude给出了它的理解:
伟大的宫殿(标志 24,类似于线性 A 标志 041「宫殿」)在这对神圣夫妇的注视下高高矗立(标志 02 和 06,类似于线性 A 标志 038「神」和 037「女神」)。神圣的公牛(符号 28,类似于克里特岛象形文字 012「公牛」)被用来献祭(符号 27,类似于线性 A 符号 031「奉献」),以确保上天的青睐。

勇敢的战士(符号 08,类似于克里特岛象形文字 059「战士」)起航(符号 25,类似于线性 A 符号 086「船」)保卫王国的边界。凭借双斧的力量(符号13,类似于克里特象形文字042「双斧」)和神圣盾牌的保护(符号12,类似于克里特象形文字024「盾牌」),他们战胜了敌人(符号29,类似到线性A标志080「敌人」)并胜利归来。

明智的统治者(符号07,类似于线性A符号038「主」)和贵族女士(符号09,类似于线性A符号037「女士」)监督着土地的繁荣。丰富的收成(符号35,类似于线性A符号031「谷物」)和熟练的手工艺(符号19,类似于克里特岛象形文字054「工匠」)给人们带来了财富和欢乐。

神圣的文字(符号41,类似于线性A符号070「文字」)在圣殿(符号23,类似于克里特岛象形文字057「神庙」)中被背诵,以维持宇宙秩序。生命、死亡和重生的永恒循环(标志10、11和34,类似于线性A标志010「生命」、036「死亡」和057「出生」)在不朽者的指导下继续进行。」

用Claude 3来将自己的创意分解为可操作的创业规划

这个初创公司的CEO分享了两个他个人非常常用的Claude提示词,一个可以帮助普通人来检验自己的想法能不能变成可以赚钱的生意,一个可以来让Claude在某个自己不熟悉的领域来做一些工程上的决定。

当然,他的提示词是用的英文,但是为了方便大家理解,我们做了翻译。
如果有自己不熟悉的领域的知识需要快速理解,这个Claude 3的提示词也可以帮上忙。
除了生成商业计划和工程方面的建议,按照这个思路可以让他做很多专业化的处理工作。
以下是他通过这个提示词获得的结果。
可以看出,Claude能严格按照你设置的格式和要求来回答你的问题。

用Claude 3编写一段解释勾股定理的代码

提示是:「编写 manim 代码来动画解释毕达哥拉斯定理。在编码之前一步步思考并向我提供完整的代码」
虽然它并没有在第一次尝试中为我提供完全完美的代码,但这是一个非常好的开始。
不过小哥也承认,刚开始Claude 3生成的代码是有Bug的,他花了几分钟改了之后才能运行出这个动画。
参考资料:
https://twitter.com/minchoi/status/1768490735781695943



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【2024】【Greenhous|6-9月排位】【步行伯克利/NEU|本科生】Fenway最火爆的高级公寓,隔断人均1800今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!【租房】本科友好|包杂费家具|NEU/BU/伯克利|新建豪华公寓Studio2800+/1b3700+/2B4999+【排位+现房】【Fenway酒店式公寓+健身房】【5分钟步行东北/伯克利】【旁边就是绿/橙线和Whole Foods】 可本科生首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型小红书迎来新社区内容负责人;文心一言数学能力与Claude-3并列第一;买“加速包”可优先购票?12306回应:无效……快忘掉UC伯克利小妖精!我是公立常春藤初始成员,性价比高!选我!谷歌再雪前耻,新Bard逆袭GPT-4冲上LLM排行榜第二!Jeff Dean高呼我们回来了《华灯初上》&《一程山路》本科生薪酬最高的公立大学Top10!UCLA不敌伯克利,第2名绝对想不到……音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2PhotorealGPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动CSRankings美国CS专业排名出炉!MIT跌出前5,UCSD比伯克利还牛......H1B抽签结果出炉!今年中签率创新高?大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词7030 血壮山河之枣宜会战 “扑朔迷离”南瓜店 7全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选习总说,上海人“不粘人”;其实,上海,不粘中国大模型新王诞生!Claude 3首次超越GPT4360度无死角!UC伯克利华人发布3DHM框架:一张图片即可模仿任意视频动作宇宙人(1489期)聂海胜出席中国航天大会;文心一言数学能力与Claude-3并列第一;英伟达黄仁勋称人形机器人未来将成主流学生遭职场霸凌:UC伯克利AI实验室爆出惊天大瓜GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队【9月现房】【唯一带室内洗烘的普通公寓】【步行伯克利/东北】【秋季排位】【Fenway】【1B/2B/3B】【$3100起】《深处的语言》的简评——By 车邻【2024全新翻新公寓6-9月排位开始啦!超高性价比NEU,伯克利同学实现步行上学|Studio$1950起享受高级公寓的物业】庐山烟雨浙江潮全球生活花费排名出炉!新加坡&纽约并列第一,英国无城市进前十加速知识检索:伯克利&DeepMind联合研究,RaLMSpec让语言模型服务飞速提升2-7倍!LLM排行榜更新!谷歌Bard超过GPT-4,中国玩家未进前十UC伯克利家长雇佣安保在校园巡逻,校方不满:真是有钱瞎操心!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。