Redian新闻
>
最新Claude 200K严重「虚标」?大神壕掷1016美元实测,90K后性能急剧下降

最新Claude 200K严重「虚标」?大神壕掷1016美元实测,90K后性能急剧下降

公众号新闻



  新智元报道  

编辑:润 好困
【新智元导读】月初刚测了GPT-4 Turbo上下文真实实力的大神Greg Kamradt又盯上了Anthropic刚更新的Claude 2.1。他自己花了1016刀测完之后显示,Claude 2.1在上下文长度达到90K后,性能就会出现明显下降。

OpenAI正忙着政变的时候,他们在硅谷最大的竞争对手Anthropic,则悄悄地搞了个大新闻——发布了支持200K上下文的Claude 2.1。
看得出来,Claude 2.1最大的升级就是将本就很强大的100K上下文能力,又提升了一倍!
200K的上下文不仅可以让用户更方便的处理更多的文档,而且模型出现幻觉的概率也缩小了2倍。同时,还支持系统提示词,以及小工具的使用等等。
而对于大多数普通用户来说,Claude最大的价值就是比GPT-4还强的上下文能力——可以很方便地把一些超过GPT-4上下文长度的长文档丢给Claude处理。
这样使得Claude不再是ChatGPT的下位选择,而成为了能力上和ChatGPT有所互补的另一个强大工具。
所以,Claude 2.1一发布,就网友上手实测,看看官方宣称的「200K」上下文能力到底有多强。

Claude 2.1 200K上下文大考:头尾最清楚,中间几乎记不住

本月初,当OpenAI发布了GPT-4 turbo的时候,技术大佬Greg Kamradt就对OpenAI的新模型进行了各方面的测试。
他把YC创始人Paul Graham文章的各个部位都添加了标记性的语句后喂给模型,然后来测试它读取这些语句的能力。
用几乎同样的方法,他对Claude 2.1也进行了上下文能力的压力测试。

2天时间全网阅读量超过110万
测试结果显示:
在官方标称的极限长度200K下,Claude 2.1确实有能力提取出标记性的语句。
位于文档开头的标记性内容,几乎都能被完整的获取到。
但和GPT-4 Turbo的情况类似,模型对文档开头内容的获取效果不如对文档底部内容的获取内容。
从90K长度开始,模型对文档底部标记性内容的获取能力就开始下降了。
从图中我们能看到,与GPT-4 128K测试结果相比,Claude 2.1 200K上下文长度,仅仅只是「在200K长度的文章中能读取到信息」。
而GPT-4 128K的情况是「在128K长度后出现明显下降」。
如果按照GPT-4 128K的质量标准,可能Claude 2.1大概只能宣称90K的上下文长度。
按照测试大神Greg说法,的这些测试结果表明:
用户在需要专门设计提示词,或者进行多次测试来衡量上下文检索的准确性。
应用开发者不能直接假设在这些上下文范围内的信息都能被检索到。
更少上下文长度的内容一般来说就代表着更高的检索能力,如果对检索质量要求比较高,就尽量减少喂给模型的上下文长度。
关键信息的位置很重要,开头结尾的信息更容易被记住。
而他也进一步解释了自己做这个对比测试的原因:
他不是为了黑Anthropic,他们的产品真的很棒,正在为所有人构建强大的AI工具。
他作为LLM从业人员,需要对模型的工作原理,优势和局限性有更多的了解和理解。
这些测试肯定也有不周到的地方,但可以帮中使用模型的用户更好的构建基于模型的服务,或者更加有效地使用模型能力。
而在做测试的过程中他还发现了一些细节:
模型能够回忆出的标记事实量很重要,模型在执行多个事实检索任务或综合推理步骤时会降低回忆事实的体量。
更改提示词,问题,以及要回忆的事实和背景上下文都会影响回忆的质量。
Anthropic团队在测试过程中也提供了很多帮助和建议,但这次测试调用API还是花了作者本人1016美元(每100万token的成本为8美元)。

自掏200刀,首测GPT-4 128K


在这个月初,OpenAI在开发者大会上发布GPT-4 Turbo时,也宣称扩大了上下文能力到128K。
当时,Greg Kamradt直接自掏200刀测了一波(单次输入128K token的成本为1.28美元)。
趋势来看,和这次Anthropic的结果差不多:
当上下文超过73K token时,GPT-4 的记忆性能开始下降。
如果需要回忆的事实位于文档的7%到50%深度之间,回忆效果通常较差。
如果事实位于文档开头,无论上下文长度如何,通常都能被成功回忆出来。
而整个测试的详细步骤包括:
利用Paul Graham的文章作为「背景」token。用了他的218篇文章,轻松达到200K token(重复使用了一些文章)。
在文档的不同深度插入一个随机陈述,称述的事实是:「在旧金山最棒的活动是在阳光灿烂的日子里,在多洛雷斯公园享用三明治。」
让GPT-4仅依靠提供的上下文来回答这个问题。
使用另一个模型(同样是 GPT-4)和@LangChainAI 的评估方法来评价GPT-4的回答。
针对15种不同的文档深度(从文档顶部的0%到底部的 100%)和15种不同的上下文长度(从1K token到128K token),重复上述步骤。
参考资料:
https://twitter.com/GregKamradt/status/1727018183608193393
https://twitter.com/GregKamradt/status/1722386725635580292
https://the-decoder.com/anthropics-best-claude-2-1-feature-suffers-the-same-fate-as-gpt-4-turbo/



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一份汉堡加薯条,可乐就要16美元,美国男子吐槽物价太贵遭群嘲。风车村桑斯安斯囤 H100 的都成了大冤种!英伟达发布最新 AI 芯片 H200:性能提升 2 倍,成本下降 50%投资者惨了!房地产销售急剧下降!新公寓价格下跌两位数!华为5G-A新进展!通感融合技术立大功;每年豪掷10亿美元,苹果计划将生成式AI整合到产品线|AIoT情报卓世科技COO李伟伟:AI大模型驱动商业转化的多元实践|甲子引力一顿早餐$115,洗衣服花费$251!澳人因加息苦不堪言,副总理出行“壕掷”税金挨批中国买家再次涌入澳洲房市!壕掷$34亿,投资涨幅超40%!全澳30区房价上涨超百万,多个华人区上榜!未来墨尔本房价或飙涨当试炼毫无预期的临到。。。中国买家壕掷2,750万镑入手蕾哈娜曾住过的豪宅,均价破当地记录!对谈00后性教育科普者:这些话题就要大方谈!把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k starGPT-4竟成Nature审稿人?斯坦福清华校友近5000篇论文实测,超50%结果和人类评审一致不要仅仅因为「虚弱」而进入亲密关系美国麦当劳点"汉堡大薯汽水"要价16美元,男抱怨:这太疯狂了反对自己下单做12项病原体检测,不等于反对所有检测,很难理解吗?历史上有哪些「大神碾压大神」的事?中国富商壕掷48亿,买下新加坡乌节路一整栋购物中心「绝世好老板」任贤齐巡演庆功 豪掷10万美元与团队抽奖 张敬轩相隔10年重夺「最喜爱男歌手」城市NOA的「元年」与「虚火」、拆分与抱团取暖...2023年,智能驾驶「十大关键词」鼻炎难受到想割掉鼻子?真人实测,用它「疏通」有奇效00后性教育,全靠无师自通?伦敦2月UNCLE合租,仅£369/周;适合UCL/LSE/KCL的Studio仅£304/周;转租更便宜! (1月22日更新)这家合资车企销量急剧下滑,中国市场停产进入倒计时?日方股东重金押注东南亚回国送老朋友的礼物实测,怎样买"大路灯"才不是“智商税”最新Claude2.1、Llama 2随便用!亚马逊把生成式AI开发门槛打下去了囤H100的都成了大冤种!英伟达发布最新AI芯片H200:性能提升2倍,成本下降50%[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用宠物【新品】I8Toys x Gharliera“夜叉”大神公奈&大神莉月彩开订!初春快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势AI生图王者之战!深度体验实测,谁是真正的艺术家?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。