Redian新闻
>
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源

微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源

公众号新闻

机器之心报道

机器之心编辑部

站在巨人的肩膀上会让你看的更远,而通过让大规模语言模型来「教」较小规模的语言模型进行推理,也会是事半功倍的效果。

如你我所见,像 GPT-4、PaLM 等前沿语言模型已经展现了出色的推理能力,例如回答复杂问题、生成解释,甚至解决需要多步推理的问题,这些能力曾被认为是 AI 无法达到的。这样的能力在较小的语言模型中并不明显,因此现在的挑战就是如何利用对大型语言模型不断增长的知识,进而提升较小模型的能力。


之前微软研究院推出了 Orca,它是拥有 130 亿参数的语言模型,通过模仿更强大 LLM 的逐步推理过程,展现了强大的推理能力。


现在研究者再接再厉推出了 Orca 2,继续探索如何通过改进训练信号来提升较小语言模型的推理能力。



  • 论文地址:https://arxiv.org/pdf/2311.11045.pdf

  • Hugging Face 地址 1:https://huggingface.co/microsoft/Orca-2-13b

  • Hugging Face 地址 2:https://huggingface.co/microsoft/Orca-2-7b


训练小型语言模型的研究通常依赖于模仿学习,以复现更强大模型的输出。过分强调模仿可能会限制较小模型的潜力。研究者的想法是致力于教导小型语言模型在不同任务中使用不同的解决策略,这些策略可能与更大模型使用的不同。更大的模型可能对复杂任务直接提供答案,但较小模型或许没有相同的能力。


在 Orca 2 中,研究者教给模型各种推理技巧(逐步推理、先回忆再生成、回忆 - 推理 - 生成、直接回答等),这样做旨在帮助模型学会为每个任务确定最有效的解决策略。


研究者使用「包括大约 100 个任务和超过 36,000 个独特提示」的全面集合的 15 个不同基准来评估 Orca 2。在 Zero-shot 环境中对高级推理能力进行评估的复杂任务中,Orca 2 明显超越了相似规模的模型,并达到了与 5-10 倍大型模型相似或更好的性能水平。Orca 2 已经开源,以鼓励人们在较小语言模型的开发、评估和对齐方面进行更深入的研究。


Orca 2 有两个规模(70 亿和 130 亿参数),均通过在定制高质量合成数据上对相应的 LLaMA 2 基础模型进行微调而创建。


图 1:Orca 2(7B 和 13B)与 LLaMA-2-Chat(13B 和 70B)以及 WizardLM(13B 和 70B)在各种基准测试上的结果 (zero-shot),涵盖了语言理解、常识推理、多步推理、数学问题解决等。Orca 2 模型的表现不逊于或超越包括 5-10 倍更大的模型在内的所有其他模型。这里所有模型都使用相同尺寸的 LLaMA 2 基础模型。 


图 2:演示 Orca 2、其基础模型 LLaMA 2、LLaMA 2-Chat 和 ChatGPT(GPT-3.5-Turbo)对一个推理问题的响应的示例。LLaMA 2 和 LLaMA 2-Chat 模型的响应分别使用 replicate.com/meta/llama-2-13b 和 chat.lmsys.org 生成。


技术细节


Orca 2 可以给出一个有力的推测即不同的任务可能受益于不同的解决策略(如逐步处理、回忆后生成、回忆 - 推理 - 生成、提取 - 生成和直接回答),并且大型模型采用的解决策略可能不是较小模型的最佳选择。例如,虽然像 GPT-4 这样的模型可能轻松生成直接回答,但是较小的模型可能缺乏这种能力,需要采用不同的方法,如逐步思考。


因此,单纯地教导较小模型「模仿」更强大模型的推理行为可能并不是最优的选择。虽然将较小模型训练成逐步解释答案已被证明是有益的,但在多种策略上进行训练使其能够更灵活地选择适合任务的策略。


研究者使用「谨慎推理」(Cautious Reasoning)来指代决定为给定任务选择哪种解决策略的行为,包括直接生成答案,或者采用多种「慢思考」策略之一(如逐步、猜测和检查或先解释后回答等)。


以下是训练谨慎推理 LLM 的过程:


1. 从多样化的任务集开始。

2. 依据 Orca 的性能,决定哪些任务需要哪种解决策略(例如直接回答、逐步处理、先解释后回答等)。

3. 为每个任务编写相应于所选策略的特定系统指导,以获得每个任务的「教师」系统的响应。

4. 提示擦除:在训练时,用不包含如何处理任务细节的通用指令替换「学生」系统的指令。


注意一点,第 3 步中广泛的获取「教师」系统的响应:它可以利用多个调用、非常详细的指令等。


关键思想是:在没有详细说明如何处理任务的原始系统指导的情况下,学生模型将被鼓励学习该基本策略以及它所涉及的推理能力。研究者将这一技术称为「提示擦除」,因为它去除了教师模型构建其推理的结构。借助这一技术,研究者实现了 Orca 2—— 一个谨慎的推理模型。


Orca 2 使用扩展的、高度定制的合成数据集进行训练。生成的训练数据用以教导 Orca 2 各种推理技巧,例如逐步处理、回忆后生成、回忆 - 推理 - 生成、提取 - 生成和直接回答方法,同时也教导它为不同的任务选择不同的解决策略。


训练数据是从更有能力的「教师」系统模型获取的。研究者可以通过非常详细的指导甚至多次调用来获取「教师」系统的响应,这取决于任务和模型缩期望的行为。在没有原始指导的情况下,即没有详细说明如何处理任务,「学生」系统模型将被鼓励学习该基本策略以及它所激发的推理能力。


实验结果


推理


推理能力在确定 LLMs 的功效方面至关重要。研究者通过进行各种基准测试,如 AGI Eval、BigBench-Hard(BBH)、DROP、RACE、GSM8K 和 CRASS,来评估 Orca 2 模型的推理能力。这些基准测试的平均性能如下图 4 所示。


通过比较 Orca 2 与其它模型,研究者有以下发现:


超越相同规模的模型。Orca-2-13B 在 zero-shot 推理任务上显著优于相同规模的模型。相对于 LLaMA-2-Chat-13B,Orca-2-13B 提升了 47.54%,相对于 WizardLM-13B 提升 28.15%。值得注意的是,这三个模型 Orca-2-13B、LLaMA-2-Chat-13B 和 WizardLM-13B 都基于相同的基础模型,这也凸显了 Orca 2 采用的训练过程的有效性。


媲美 5-10 倍更大的模型。Orca-2-13B 超越了 LLaMA-2-Chat-70B 的性能,并且在表现上与 WizardLM-70B 和 ChatGPT 相当。在所有推理任务上,Orca-2-7B 要么更好,要么与 LLaMA2-Chat-70B 相当。


谨慎的系统消息提供小幅增益。使用谨慎的系统消息对 7B 和 13B 模型都比空系统消息提供了小幅增益。


知识与语言理解

MMLU、ARC-Easy 和 ARC-Challenge 评估 LLMs 的语言理解、知识和推理。与其他基准一样,研究者仅与经过指令调整的模型进行比较,进行 zero-shot 评估。下表 2 显示了知识和语言理解基准的结果。总体而言,我们可以观察到与推理任务相似的趋势。



文本补全


除了衡量高级推理能力的基准外,研究者使用 HellaSwag 和 LAMBADA 来衡量文本补全能力。HellaSwag 以多项选择题的形式测量文本补全技能,而 LAMBADA 是一个单词补全任务。


下图 5 显示了不同模型在文本补全基准上的表现。在 HellaSwag 上,Orca-2-7B 和 Orca 2-13B 表现出色,优于 13B 和 70B 基准。Orca-2-13B 相对于 LLaMA-2-Chat-13B 提高了 33.13%,相对于 WizardLM-13B 提高了 61.94%。


多轮开放式对话


研究者在多轮会话设置中评估 LLMs 的能力,使用了 MT Bench 数据集。每轮得分和 MTBench 的平均得分如下表 3 所示。



Orca-2-13B 与其他 13B 模型相比表现相当。Orca-2-13B 的平均第二轮得分低于第一轮得分,这可以归因于其训练数据中缺乏对话。然而,Orca 2 仍然能够参与对话,并通过将多个 zero-shot 示例打包到相同的输入序列中,增强这种能力。提高 Orca 2 的多轮对话能力将是研究者未来工作的一部分。

特定背景下的表现


生成在特定背景下有根据的响应是许多 LLM 应用程序中期望的属性。研究者使用三个不同的任务进行此评估,涵盖基于查询的会议总结、Web 问答(生成并具有长格式答案)和医生 - 患者对话总结。提取式总结和具体问题回答经常被用作评估具体背景性的测试平台。


下图 6 展示了研究者在进行实验的三个基准上,不同模型的幻觉率结果平均值比较。


Orca-2-13B 在所有 Orca 2 变体以及其他 13B 和 70B 的 LLM 中表现出最低的幻觉率。与 LLaMA-2-13B 和 WizardLM-13B 模型相比,Orca-2-13B 的幻觉率分别降低了 76.92% 和 61.71%。尽管在本研究中涉及的三个任务中,谨慎的系统消息增加了幻觉率。


通过人工分析,研究者发现在由谨慎系统消息引导的推理过程中,Orca 2 可能会推断上下文中可用的信息,并使用推断出的内容来创建摘要。生成的内容在事实上通常是准确的,但它们没有得到上下文的支持。


更多细节请参见原论文。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%三个臭皮匠顶个诸葛亮?可能是真的,已证实混合多个小模型性能比肩GPT3.5大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机图解大模型推理优化之KV Cache大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星普林斯顿开源34B数学大模型:性能媲美谷歌Minerva,参数少一半!550亿token专业数据训练悄悄话见不得人?芯至科技尹文:拆解架构创新四大路径,打造10倍性价比大模型推理芯片丨GACS 2023「StructGPT」面向结构化数据的大模型推理框架免费试听|深度掌握资产组合策略及风险管理进阶知识,名企项目为你的Offer保驾护航!小模型怎么扩大参数?SOLAR: “自我嫁接”就行!傅盛揭穿OpenAI「阳谋」,引130万人围观!百亿参数模型帮老板打王者,一张3060就能跑小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑用童话训练AI模型,微软找到了探索生成模型参数的新切入点今晚直播 | StructGPT:面向结构化数据的大模型推理框架iPhone 16或全系告别静音拨片/微信称好友上限约1万个/阿里云开源通义千问720亿参数模型| 灵感周报​开源模型在竞赛数学MATH上首次突破50%,清华、微软联合推出工具集成推理语言模型6020 血壮山河之随枣会战 南昌之战 13比A100性价比更高!FlightLLM让大模型推理不再为性能和成本同时发愁小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式原来我也是被顶替的人国内首创!高交会上,国产14nm Chiplet大模型推理芯片问世用上这个工具包,大模型推理性能加速达40倍中科加禾崔慧敏:AI芯片+编译器才是王道!性能提升2~3倍,将推出大模型推理引擎丨GACS 2023世界各国的产假比较北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型阿里云联手英特尔「压榨」CPU性能,跑起了72B大模型推理雷军称小米汽车性能媲美百万级豪车/苹果 Vision Pro 被炒到 9 万,仍面临挑战/《王者荣耀》抖音直播已全面开放11月必看!“新世界三大男高音”Juan Diego Flórez首次亮相澳洲!轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了大模型推理核心技术:Continuous Batching详解大模型+小模型,AI 产品的新沸点学习《林黛玉经典语录》(六)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。