Redian新闻
>
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?

GitHub上一种你没有见过的船新Benchmark火了。

与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。

这种新玩法吸引了不少网友来围观。

由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。

排名结果也很出人意料。

经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:

最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的GPT-4和Mistral中杯大杯

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。

考验AI的动态决策力

AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:

  • 反应要快:格斗游戏讲究实时操作,犹豫就是败北

  • 脑子要灵:高手应该预判对手几十步,未雨绸缪

  • 思路要野:常规套路人人会,出奇制胜才是制胜法宝

  • 适者生存:从失败中吸取教训并调整策略

  • 久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率

具体玩法如下:

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述

所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。

把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差

开发者对此解释到:

目标是评估大模型的实时决策能力,规则上允许AI提前生成3-5个动作,更大的模型能提前生成更多的动作,但也需要更长的时间。

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。

后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。


正如开发者所说,想要赢,要在速度和精度之间做好权衡

GitHub项目:
https://github.com/OpenGenerativeAI/llm-colosseum

参考链接:
[1]
https://x.com/nicolasoulianov/status/1772291483325878709
[2]https://x.com/justinlin610/status/1774117947235324087

【🔥 火热报名中】中国AIGC产业峰会

定档4月17日

峰会已经邀请到数位代表技术、产品、投资、用户等领域嘉宾,共论生成式AI产业最新变革趋势。

目前首批确认参会嘉宾包括:微软陶然昆仑万维方汉美图公司吴欣鸿联想创投宋春雨通义千问林俊旸逐际动力张力人大卢志武北大袁粒小冰公司徐元春金山办公姚冬FusionFund张璐通义大模型徐栋DCM曾振宇澜码科技周健得到快刀青衣实验电影人海辛等。了解更多

欢迎报名峰会 ⬇️

峰会将全程线上下同步直播,欢迎预约直播 ⬇️


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上GPT【解字】品“头”论“足”开源大模型火了!(附99个大模型微调模型/数据/工具)!中国正在掩盖一场经济危机语言是一门艺术hé bàng?hé bèng?全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五桌面版ChatGPT登台演讲,能视频通话还会实时读屏,GPT-4o最新demo再次惊艳:“能力还是被低估了”ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5童年忆事 一、三虎ChatGPT再升级,实时分析Excel、PPT等文件;让减肥没有平台期,新药物可让小鼠体脂减少45% | 环球科学要闻BGE家族新成员——下一代通用向量模型BGE-M3数据分析师噩梦?ChatGPT实时互动分析Excel数据,网友挖出背后新模型今日arXiv最热大模型论文:图灵测试中,GPT-4仍不及人类!吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事杭州内推 | 蚂蚁集团招聘代码大模型方向研究型实习生全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选财报解读|百度三大业务加速AI化,李彦宏称大模型实惠高效是下一目标AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTsCopilot功能大礼包!微软让个人AI助手进入团队,GPT-4o现已助力Azure,浏览器视频实时翻译7036 血壮山河之枣宜会战 “扑朔迷离”南瓜店 13书生·浦语大模型实战营第二期正式启动,内容全面升级!【2024排位|Church Park火爆进行中】【NEU/Berklee】【可排7-10月】浓人,nèng死淡人神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观神秘大模型一夜刷屏,能力太强被疑GPT-4.5,奥特曼避而不答打哑谜RD放榜继续!UCSB+28,南加大+5,UNC+5,Swarthmore+1,CMC+1…又一阵Offer雨!让郭德纲飚英文霉霉说中文的AI,新一轮融资估值4.4亿美元,Benchmark领投打工人、宝妈、学生党都能用上大模型?6款国产大模型实用性测试
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。