Redian新闻
>
一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用

一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

各家大模型纷纷卷起上下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。

然鹅一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力

AI真的能从几十万字中准确找到关键事实吗?颜色越红代表AI犯的错越多。

默认情况下,GPT-4-128k和最新发布的Claude2.1-200k成绩都不太理想。

但Claude团队了解情况后,给出超简单解决办法,增加一句话,直接把成绩从27%提升到98%。

只不过这句话不是加在用户提问上的,而是让AI在回复的开头先说:

“Here is the most relevant sentence in the context:”‍‍‍‍

(这就是上下文中最相关的句子:)

让大模型大海捞针

为了做这项测试,作者Greg Kamradt自掏腰包花费了至少150美元。

好在测试Claude2.1时,Anthropic伸出援手给他提供了免费额度,不然还得多花1016美元。

其实测试方法也不复杂,都是选用YC创始人Paul Graham的218篇博客文章当做测试数据。

在文档中的不同位置添加特定语句:在旧金山最好的事情,就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。

请GPT-4和Claude2.1仅仅使用所提供的上下文来回答问题,在不同上下文长度和添加在不同位置的文档中反复测试。

最后使用Langchain Evals库来评估结果。

作者把这套测试命名为“干草堆里找针/大海捞针”,并把代码开源在GitHub上,已获得200+星,并透露已经有公司赞助了对下一个大模型的测试。

AI公司自己找到解决办法

几周后,Claude背后公司Anthropic仔细分析后却发现,AI只是不愿意回答基于文档中单个句子的问题,特别是这个句子是后来插入的,和整篇文章关系不大的时候。

也就是说,AI判断这句话和文章主题无关,就偷懒不去一句一句找了。

这时就需要用点手段晃过AI,要求Claude在回答开头添加那句“Here is the most relevant sentence in the context:”就能解决。

使用这个办法,在寻找不是后来人为添加、本来就在原文章中的句子时,也能提高Claude的表现。

Anthropic公司表示将来会不断的继续训练Claude,让它能更适应此类任务。

在API调用时要求AI以指定开头回答,还有别的妙用。

创业者Matt Shumer看过这个方案后补充了几个小技巧:

如果想让AI输出纯JSON格式,提示词的最后以“{”结尾。同理,如果想让AI列出罗马数字,提示词以“I:”结尾就行。

不过事情还没完……

国内大模型公司也注意到了这项测试,开始尝试自家大模型能不能通过。

同样拥有超长上下文的月之暗面Kimi大模型团队也测出了问题,但给出了不同的解决方案,也取得了很好的成绩。‍‍‍

这样一来,修改用户提问Prompt,又比要求AI在自己的回答添加一句更容易做到,特别是在不是调用API,而是直接使用聊天机器人产品的情况下。

月之暗面还用自己的新方法帮GPT-4和Claude2.1测试了一下,结果GPT-4改善明显,Claude2.1只是稍微改善。

看来这个实验本身有一定局限性,Claude也是有自己的特殊性,可能与他们自己的对齐方式Constituional AI有关,需要用Anthropic自己提供的办法更好。

后来,月之暗面的工程师还搞了更多轮实验,其中一个居然是……

坏了,我成测试数据了。‍‍‍‍

参考链接:
[1]https://x.com/GregKamradt/status/1727018183608193393
[2]
https://www.anthropic.com/index/claude-2-1-prompting

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练年终最后一次盘点!最新最全顶会论文合集(含AAAI24、CVPR、ECCV、NIPS、ACL、ICML等)沙特六大著名人文景点达芬奇:文艺复兴的标志人物和全能天才chat gpt 怎么上不去了? 彻底罢工了中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了王者GPT-4已来,32k上下文!OpenAI首届开发者大会最新爆料,全新UI可定制GPT,xAI大模型大范围可用矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日美中军方在悄悄重建沟通机制达拉斯这家超市,感恩节特惠!金沙巧克力,24粒装只需$8.98,千层蛋糕现在只要$19.99!Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树OpenAI史诗级更新:人人都可定制GPT,GPT商店上线,模型价格打骨折小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器全都不及格!斯坦福100页论文给大模型透明度排名,GPT-4仅排第三说一个有关Open AI的Chat GPT 创投人和我家的小故事最新Claude 200K严重「虚标」?大神壕掷1016美元实测,90K后性能急剧下降ChatGPT最强竞对更新!上下文长度翻倍,API降价近30%Stability AI开年首个大模型:专写代码,支持18种编程语言,上下文100K,苹果笔记本离线就能跑GPTAI早知道|腾讯文档智能助手开启公测;GPT-4、文心一言领跑主流大模型LLaMA2上下文长度暴涨至100万tokens,只需调整1个超参数|复旦邱锡鹏团队出品全面的中文大语言模型评测来啦!香港中文大学研究团队发布小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习200亿「书生·浦语2.0」正式开源!数推性能比肩ChatGPT,200K超长上下文完美召回《又见洛阳》第48集说明和节选时间的湾 1GPT turbo 看了没?!这真是大批失业人员在路上。一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源百川智能再发新模型,超越Claude2将上下文窗口做到了全球第一GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录2023中文大模型基准测评报告发布;微软Copilot将升级至GPT-4 Turbo;AI奥林匹克数学奖设立丨AIGC大事日报RAG+GPT-4 Turbo让模型性能飙升!更长上下文不是终局,「大海捞针」实验成本仅4%面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了红色日记 路线教育 7.27-31OpenAI史诗级更新!最强大模型炸场,128K上下文、价格暴降2/3,还能定制专属GPT
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。