Redian新闻
>
谷歌再雪前耻,新Bard逆袭GPT-4冲上LLM排行榜第二!Jeff Dean高呼我们回来了

谷歌再雪前耻,新Bard逆袭GPT-4冲上LLM排行榜第二!Jeff Dean高呼我们回来了

科技



  新智元报道  

编辑:润 好困
【新智元导读】谷歌Bard又行了?在第三方LLM「排位赛」排行榜上,Bard击败GPT-4成为第二名。Jeff Dean兴奋宣布:谷歌回来了!

一夜之间,Bard逆袭GPT-4,性能直逼最强GPT-4 Turbo!
这个听起来似乎像梦里的事情,确确实实地发生了。

就在昨天,谷歌首席Jeff Dean发推提前透露了谷歌的最新版模型——Gemini Pro-scale。
基于此,Bard相较于3月份的首次亮相,不仅在表现上有了显著的提升,而且还具备了更多的能力。
可以看到,在最新的Gemini Pro-scale加持下,Bard直接蹿升到了排行榜第二名的位置。
一口气把之前的两款GPT-4模型斩于马下,甚至和排名第一的GPT-4 Turbo的差距也非常小。
虽然Jeff Dean并没有具体阐述「scale」的含义,但从名称上推测,很可能是一个比初代Gemini Pro规模更大的版本。
而根据前段时间外媒曝出的内部邮件,搭载Gemini Ultra的Bard Advanced已经全面开放给谷歌员工试用。
也就是说,距离谷歌最强模型的上线,已经不远了。
随着谷歌对Gemini Pro更新后不断大幅上涨的表现,也让所有人对完全体Gemini Ultra的能力有了更多的期待。
不过,新推出的Bard目前只接受了约3,000次评价,而GPT-4的评价次数已高达30,000次。因此,这个结果后续很可能还会发生变动。
但不管怎样,这对于谷歌来说是一项令人瞩目的成就,也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。

谷歌Bard超越GPT-4跃居第二

简单介绍一下,这个由UC伯克利主导,CMU,UCSD等顶级高校共同参与创建的聊天机器人竞技场「Chatbot Arena」,是学术圈内一个很权威的大模型对话能力排行榜。
榜单通过类似Moba游戏中的「排位赛」机制,让各家大模型通过PvP的方式来排出性能高低。
期间,用户会与模型(不知道具体型号)进行互动,并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。
这种方式能够有效地避免很多PvE基准测试中可能出现的,通过「刷题」来提高成绩的问题,被业界认为是一个比较客观的大模型能力排行榜。
为了便于区分,LMSYS Org指出,目前Gemini Pro市面上总共有3个版本:

- Gemini Pro API:用户可以通过谷歌云的Vertex AI API进行访问

- Gemini Pro(dev)API:开发者API可以通过谷歌 AI Studio进行访问

- Bard(1月4日更新的Gemini Pro):是目前唯一可以访问到1月24日更新的Gemini Pro的方式
同时,谷歌Bard项目的高级总监Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是两个在微调层面不同的模型,而且Bard可以检索互联网上的信息。
在ChatBot Arena中,1月24号更新的Bard由于支持检索互联网,相比于之前放出的Gemini Pro(API)对于实时信息问题的回复提升巨大。
从谷歌的这波更新可以看出,Gemini Pro的潜力似乎远远没有被完全释放,希望谷歌能再接再厉,对OpenAI一家独大的格局形成挑战。
以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细:

模型A相对于模型B在所有非平局对决中获胜的比例

不同模型组合间对决的次数统计(排除平局情况)
通过1000轮随机抽样对Elo评分进行的自举法(Bootstrap)估计

在假设等概率抽样和不存在平局的情况下,相对于所有其他模型的平均胜率

Elo评分系统

Elo等级分制度(Elo rating system)是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo评分越高,那么就说明这个玩家越厉害。
比如英雄联盟、Dota 2以及吃鸡等等,系统给玩家进行排名的就是这个机制。
举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。
而且,这个Elo评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。
具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:
然后,玩家的评分会在每场对战后线性更新。
假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:

网友热议

对此,网友提问:现在能够访问的Bard就是这个排名第二的Bard了吗?
谷歌官方回复,是的,而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。
不过还是有网友吐槽,即使在PvP排行榜上Bard已经取得了很好的成绩,但是对于理解用户需求和解决实际问题的能力,Bard和GPT-4依然还有很大差距。
也有网友认为,用能联网的Bard和离线的GPT-4打有失公平。甚至,就这样还没打过……
而最有意思的,还要数网友在排行榜中发现的「华点」了:号称是GPT-4最大竞品的Claude居然越更新越弱了。
对此,之前有分析认为,Anthropic一直在大力发展的与人类对齐,会严重影响模型的性能。

GPT-4 Turbo超长上下文A/B测试

有趣的是,这个连Jeff Dean都亲自下场的「刷榜」,正巧就在OpenAI连发5款新模型的第二天。
根据OpenAI的介绍,新版GPT-4 Turbo——gpt-4-0125-preview,不仅大幅改善了模型「偷懒」的情况,而且还极大地提升了代码生成的能力。
不过,正如大家对Bard的怀疑,GPT-4这次到底有没有变强也有待验证。
对此,AI公司Smol的创始人Shawn Wang,就在超过100k单词的超长上下文中,对比测试了新旧GPT4-Turbo的总结能力。
Wang表示,两次测试使用的是完全相同提示词,以及基本相同的语料库。
虽然没有严格严格,但每个模型都进行了超过300次的API调用,因此对于总结任务而言,这一结果还是具有一定参考价值的。
结果显示,2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词,相比之下,2023年11月的用16分钟生成了18,884个单词。
也就是说,新模型的生成速度大约慢了 18%,且生成文本的长度平均偏长约7%。
质量方面:

- 2024年1月的模型在主题选择上略有改善,但仍存在问题

- 2023年11月的模型会产生更多错误信息

- 2024年1月的模型在总结中添加小标题的能力略有提升

- 2024年1月的模型出现了一次严重的格式错误,而这在之前是极为罕见的

- 2023年11月的模型文本详情更加丰富
总体而言,新版GPT4-Turbo在总结这一应用场景上有所退步。
左侧:2023年11月;右侧:2024年1月(左右滑动查看全部)

OpenAI最后的「开源遗作」两周年

不得不说,AI领域的发展过于迅猛,甚至让人对时间的流速都产生了错觉。
今天,英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。
在这里,OpenAI定义了一套标准流程:预训练 -> 监督式微调 -> RLHF。直到今天,这依然是大家遵循的基本策略(尽管有些许变化,比如DPO)。
它不仅仅是大语言模型从学术探索(GPT-3)到转化为具有实际影响力的产品(ChatGPT)的关键转折点,而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。

论文地址:https://arxiv.org/abs/2203.02155

- InstructGPT在2022年的NeurIPS会议上首次亮相,但它并不是RLHF的发明者。实际上,相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。
这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务——通过一名人类标注者提供的900个二选一偏好,RLHF让一个简单的「跳跃」机器人在模拟环境中学会了后空翻。

论文地址:https://arxiv.org/abs/1706.03741v4
- 模型提供了三种规模:1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比,标注者明显更喜欢Instruct-1.3B。微软最知名的「小模型」Phi-1也是1.3B。
- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂,并且成为AI领域最标志性的图像之一。引言部分直接了当,用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。
参考资料:
https://twitter.com/JeffDean/status/1750930658900517157
https://twitter.com/asadovsky/status/1750983142041911412?s=20
https://twitter.com/DrJimFan/status/1751285761364906476



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
LLM排行榜更新!谷歌Bard超过GPT-4,中国玩家未进前十GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评1月第一波!香港Goldman Sachs、Jefferies、HSBC...200+实习岗位已汇总!年薪$12万!精品投行Jefferies(US)已开放Equity Research Associate项目家居修理系列:屋顶篇(4)屋顶漏水简单的修补Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局既能吸引投资又宜居,最新弹性城市指数排行榜出炉,新加坡排名全球第6GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板高盛杀疯了! M&A连续第7年占据排行榜第一, 对留学生的好消息是...国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果英国优衣库低至2折!Jellycat大促!GGDB小脏鞋4折起!最清廉国家排行榜揭晓,新加坡排名亚洲第1,全球第52023 LLM技术报告—— LLM的工具和平台今年最脏果蔬排行榜第一名又是它!最干净的果蔬有...年薪11万美元!精品投行Jefferies(US)已开放25 IBD暑期实习刚刚,谷歌华人工程师被捕,他用谷歌电脑偷谷歌机密存到谷歌账号...快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势与家人雨中游上海滩AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3梅朵:生命的敌人不是死亡精品投行!加拿大学员已收到Jefferies 2024 Summer Analyst一面邀请王友琴:关于北京大学1969年8月5日“宽严大会”的一个注解(钱钟书杨绛冯友兰冯宗璞蔡仲德)什么?!Jellycat 开始卖厕纸了?!可爱疯了年度时尚趋势出炉!Jennie成全球最带货偶像,她凭什么?hé bàng?hé bèng?政策红利连续升级,上海律师行业打响2024冲锋枪尔滨,我们回来啦!头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像红楼雅韵高难度精品投行!DBC学员已收到Jefferies (US) 2024全职面试邀请UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一CIBC/Jefferies/Northwestern Mutual开放海量实习岗位, 留学生快冲!新款iPad和MacBook将于3月底发布/12306针对恶意抢票进行升级/Google Bard逆袭GPT4冲上榜单第二难度超高的精品投行!学员已收到Jefferies (US) 2024全职一面邀请
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。