Redian新闻
>
开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了

开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】大模型最为人诟病的问题就是不透明、不可解释。谷歌的最新框架Patchscopes可以提供关于模型内部隐藏表征的自然语言解释,本文介绍了一些实战应用样例。


虽然大型语言模型(LLM)在各种常见的自然语言处理任务中展现出了优异的性能,但随之而来的幻觉,也揭示了模型在真实性和透明度上仍然存在问题。


在模型生成错误回复内容时,如果能够「深入理解其背后运行机制」,或许可以解决模型的幻觉问题。


然而,随着深度神经网络的复杂性和规模的增长,模型的「可解释研究」也越来越有挑战性,通过探索机器学习(ML)模型对所学内容(模型的所谓隐藏表示)进行表征的方式,即隐藏表征(hidden representation),研究人员可以在一定程度上控制模型的行为,并对模型的实际运行方式进行更深入的科学理解。


从过去的研究结果来看,一个相对有前景的方向是「使用LLMs来解释其他模型的神经元模式」(neuron patterns)。


今年1月,Google Research和特拉维夫大学的研究人员共同提出了一个统一的框架Patchscopes来研究LLMs中的隐藏表征,主要思路就是使用LLMs来提供有关模型本身内部隐藏表征的自然语言解释。


论文链接:https://arxiv.org/pdf/2401.06102.pdf


Patchscopes统一并扩展了现有的可解释性技术,能够让模型回答出之前无法解决的问题,比如模型可以说出关于「LLM的隐藏表征如何捕捉模型输入中含义的细微差别」的见解和想法,从而帮助开发人员更容易地修复某些特定类型的推理错误。


在论文刚发布的时候,研究人员还只是将Patchscopes的应用场景集中在自然语言处理领域和自回归Transformer模型家族中,但实际上该方法的潜在应用范围更广。


最近,研究人员又发布了一篇博客,详细介绍了该方法在检测和纠正模型幻觉、探索多模态(图像和文本)表征以及研究模型如何在更复杂的场景中构建预测方面的应用样例。


Patchscopes使用方法


以NLP中常见的「实体共同指代解析」(co-references to entities)任务为例,首先需要在Patchscopes中实现一个专门用于解决共指问题的工具。


比如说,为了研究模型对代词「it」所指代的人物上下文是如何理解的,需要创建出一套Patchscopes配置。



Patchscopes框架图解,通过使用预定义的目标提示符(右)解码源提示符(左)中「It」表征中编码的内容。


1. 设置 Setup


给定一个目标模型后,需要输入一段包含相关上下文信息的标准提示(即源提示,source prompt),如“Patchscopes is robust. It helps interpret…"(Patchscopes是稳健的,有助于解释…)


2. 目标 Target


二级提示(secondary prompt 即 target prompt)的目的是提取特定的隐藏信息,在这个例子里,一个简单的单词重复提示就可以揭示出隐藏表征中的信息。

例子中的目标提示词是cat->cat; 135->135; hello->hello; ?,但需要注意的是,提示中的单词是随机选择的,所以可能看起来和输入文本不相关,但也需要遵循特定的编写模式:包含多个例子,其中每个样例包括一个单词、一个箭头以及对该单词的重复。


如果将文本输入到一个训练后的语言模型中来预测下一个单词,模型的预期输出为能够继续遵循该模式。

换句话说,如果模型把「?」中的内容与其他随机单词进行替换,让模型生成下一个单词,以此来考察模型应该重复哪些单词?


3. 块 Patch


在源提示符上执行推理(inference),其中「It」token中感兴趣层的隐藏表征(图中的绿色点)被注入到目标提示(图中的橙色点)上,可以应用transformation(示例中的f函数)将表征与其他层或模型对齐。


4. 揭示 Reveal


对于增强后的输入(augmented input),模型会在输出中包含原始模型是如何在特定上下文中在内部对单词「It」进行扩展的想法。


给出的例子中,模型生成了「Patchscopes」,解释了在「It」token之上的模型第四层的隐藏表征,结果表明,经过4层计算后,模型已经将来自先前单词的信息合并到「It」token上方的隐藏表征中,并得出结论,其不再指代通用对象,而是指代「Patchscopes」。


虽然token表征(绿色点)可能看起来像一个没有任何含义解的浮点数向量,但Patchscopes框架可以将其转换为人类可理解的文本,表明指代的是「Patchscopes」,与先前的工作一致,即关于一个主题的信息会在其最后一个token中累积。


Patchscopes实战


Patchscopes在理解和控制LLMs方面有广泛的应用。


1. 下一个token预测(next token prediction)


在计算过程中,根据给定的上下文,模型可以「多早地」得出最终预测?


从中间隐藏表示进行的token预测是一个常见的、可用于评估查看Transformer内部的可解释性方法。


即使是在更复杂的早期或中期处理层,Patchscope的效果也非常好:在不同的语言模型中,从第10层开始,其性能都优于之前的方法,如Tuned Lens和Logit Lens。



使用来自LLM的中间隐藏表征的下一个token预测任务来评估各种可解释性方法,展现了使用一个简单的「Token Identity」目标提示符(即,由k个表示类似于标识的函数的演示组成的目标提示符,格式为「tok_1 → tok_1 ; tok_2 → tok_2 ; ... ; tok_k」)与Tuned Lens和Logit Lens方法相比。x轴是在LLM中检查的隐藏表征层;y轴显示precision@1,测量最高概率预测token匹配原始分布中最高概率token示例的比例。


2. 提取事实(pulling out facts)


在模型的计算中,可以多早获取属性信息(例如,某个国家的货币)。


在这个实验中,研究人员主要考虑从文本中提取属性的任务,文本来源为Hernandez等人(2024年)编写的常识和事实知识任务。


论文链接:https://openreview.net/pdf?id=w7LU2s14kE


使用的目标提示主要针对简单的动词化关系,其次是一个占位符的主题。例如,要从「States」的表征中提取美国的官方货币,使用目标提示符「The official currency of x」,考虑到Patchscopes应用程序不使用任何训练示例,并且明显优于其他技术。



跨源层的属性提取准确性(Attribute extraction accuracy across source layers,简写为REQ)。左:工具完成的任务(常识),54个源提示,12个类。右:国家货币(事实),83个来源提示,14个类别。


3. 解释实体:不只用yes或no


模型在处理输入时如何理解像「亚历山大大帝」(Alexander the Great)这样的多词输入?


Patchscopes超越了简单的「它已经解决了这个问题」(has it figured this out yet)的答案,揭示了模型如何从开始阶段,逐渐理解一个实体。


使用以下few-shot的目标提示来解码模型的逐步处理:「叙利亚:中东国家,列奥纳多迪卡普里奥:美国演员,三星:韩国跨国大型家电和消费电子公司,x」(Syria: Country in the Middle East, Leonardo DiCaprio: American actor, Samsung: South Korean multinational major appliance and consumer electronics corporation, x)。


当遍历两个不同模型(Vicuna-13 B和Pythia-12 B)的层时,更多来自上下文的单词被整合到当前表征并反映在生成中。



通过定性实例说明实体解析:表达性的生成表明,当通过层时,更多来自上下文的tokens被集成到当前表征中。「解释」(Explanation)指的是生成与源提示词的关系。两个示例都使用了上述相同的目标提示符。


4. 团队合作:用模型解释模型


Patchscopes框架可以使用强大的语言模型来解码较小的过程:研究人员利用Vicuna-13 B来解释Vicuna-7 B的输入处理,将隐藏的实体表征从较小的模型修补到较大的模型中,然后测量模型生成的文本和来自维基百科的实际参考描述之间的词汇相似性(使用RougeL得分)。


Vicuna-7 B → 13 B(绿色线)几乎总是高于Vicuna-7 B → 7 B(蓝线),曲线下面积更大,结果表明,跨模型修补到一个更大的和更有表现力的模型,在改进的生成和参考文本之间的词汇相似性的结果,并表明跨模型修补的过程显着增强了模型的能力,生成文本的上下文对齐的输入表示从另一个模型。



使用Vicuna模型,生成的描述与维基百科的描述的RougeL(词汇相似性)得分,从Vicuna-7 B到Vicuna-13 B的patched表征导致对popular和rare实体解析以更具表达力的语言化。


5. 修复错误推理


虽然最先进的LLMs可以独立地解决每个推理步骤,但仍然很难实现多步推理。

Patchscopes可以通过重新路由中间隐藏表征来帮助解决这个问题,从而显着提高准确性:在实验中,系统地生成多跳的事实和常识推理查询,并表明,与输入结构的先验知识,错误可以通过修补隐藏表征从查询的一部分到另一个固定。



思维链(CoT)Pathcscope使用相同的源提示和目标提示来执行顺序推理,但将一个位置的隐藏表征修补到另一个位置。


CoT Patchscope将准确率从19.57%提高到50%,本实验的目的是证明使用Patchscopes进行干预和纠正是可行的,但要注意CoT Pathscope是一种说明,而不是一种通用的纠正方法。


参考资料:
https://research.google/blog/patchscopes-a-unifying-framework-for-inspecting-hidden-representations-of-language-models/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024被 Sora 抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型 GemmaTypeSpec:一种受TypeScript启发的实用的API定义语言​好消息!Costco因为通货膨胀稳定部分产品开始降价啦!除了Costco这些商家和产品也跟上了!Costco四月零食大赏!照着买,再也不用羡慕别人家的costco了!有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini丨Google I/O的绝地反击因为你来了《梅》&《忘掉吧昨天》Costco 会员优惠只要 $20(原价 $60)!买会员送 Costco Shop Card[COLING 2024教程] 多模态大语言模型MLLM系列教程Costco买了2年多的旧沙发还能退?一文了解Costco退货政策~相聚多伦多(三十七) 咫尺天涯LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」文末送书 | 大模型开发的及时雨!《LangChain实战》全新教程来袭有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini|现场围观Google I/O的绝地反击夏季热门旅游目的地大揭秘!谷歌大数据告诉你该去哪里度假....抛弃自回归,连接一致性Diffusion和LLM!UCSD上交新作热度紧追AF 3Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门“在Costco门口给人画笑脸,时薪30刀”,加拿大“铁饭碗”Costco招聘!物价大对比!美国Costco VS 加拿大Costco:谢谢你,有被安慰到~非会员不能去Costco美食广场点餐了!Costco再次严查非会员购物这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单发布会对比惨烈,奥特曼发文暗讽谷歌!谷歌被曝疯狂重组迎击OpenAIChinese Shopping Platforms Phase Out Unpopular Presale Schemes俞渝谈平等;夏克立说男生也会被家暴;郝劭文回应帮别人养女儿苹果加入开源大战,官宣端侧小模型OpenELM!参数2.7亿到30亿一台M2 Mac可跑红杉资本入局,马斯克的AI公司接近达成60亿美元融资;苹果发布基于开源训练和推理框架的语言模型OpenELM丨AIGC日报电影热辣滚烫AI搜索引擎来了!谷歌放大招,发布最强AI模型,语音功能正面刚OpenAI教程来了!3分钟教你搭建:AI大模型前端界面DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩Bun 为 JavaScript 和 TypeScript 开发者提供了一个跨平台的 Shell北京内推 | ​微软亚洲研究院DKI组LLM团队招聘LLM方向研究型实习生免费GPT-4o来袭,音频视觉文本实现「大一统」
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。