Redian新闻
>
谷歌开源 AI 微调方法: Distilling Step-by-Step

谷歌开源 AI 微调方法: Distilling Step-by-Step

科技

作者 | Anthony Alford
译者 | 王强
策划 | 丁晓昀

华盛顿大学和谷歌研究中心的一个团队最近开源了 Distilling Step-by-Step(逐步蒸馏),一种用于微调规模较小的语言模型的技术。与标准微调相比,逐步蒸馏需要的训练数据更少,并且生成的模型更小,但模型性能却优于参数规模是它 700 倍的小样本提示大型语言模型 (LLM)。

虽然 LLM 一般可以在提示较少的情况下在多种任务上有良好的表现,但由于其内存和算力要求过高,模型的托管是比较有挑战的。规模较小的模型在微调后也可以有良好的表现,但这需要工程师手动创建针对具体任务优化的数据集。逐步蒸馏的关键思想是使用 LLM 自动生成一个小型微调数据集,其中的数据有一个输入和一个输出标签,以及选择这个输出标签的“理由”。微调过程会训练这个小模型来预测输出标签并生成对应的理由。在 NLP 基准上评估时,小型微调模型的性能优于 540B PaLM 模型,同时仅需要这个基准测试的全部微调数据的 80%。据谷歌称:

我们展示了,逐步蒸馏既减少了构建针对特定任务的较小模型所需的训练数据集规模,也减少了实现甚至超越小样本提示 LLM 的性能水平所需的模型大小。总的来说,逐步蒸馏提出了一种可以高效利用资源的范例,可以解决模型大小和所需训练数据之间的权衡问题。

研究表明,增加 LLM 中的参数规模可以提高其性能,目前最先进的模型(例如 PaLM)拥有数百亿个参数。然而,这些大型模型价格昂贵,且难以用于推理,因为它们需要多个并行连接的 GPU 才能把这么多参数保存在内存里。最近的研究开发出了规模稍小的模型(例如 Meta 的 Llama 2),其性能表现差不多,但参数少了一个数量级;然而,这些小一些的模型还是很庞大,需求的算力也很高。

要做出在特定任务上表现良好的小模型的一种方法,是使用针对具体任务收集的数据集来微调小规模语言模型。虽然这个数据集可能相对较小(大约有数千个示例),但其数据收集起来可能还是费时费钱。另一种选择是知识蒸馏,也就是使用大型模型作为较小模型的老师。InfoQ 最近报道了谷歌开发的一项技术,使用 PaLM LLM 来创建训练数据集,最后生成的微调模型的性能可与规模大 10 倍的 LLM 相媲美。

逐步蒸馏确实需要微调数据集,但它减少了创建高性能模型所需的数据量。源数据集通过思维链提示输入 PaLM LLM,要求模型给出其答案的理由。输出结果是修正后的微调数据集,其中包含原始输入和答案以及理由。这个较小的目标模型经过微调来执行两项任务:回答原始问题并生成理由。

谷歌使用四个 NLP 基准测试评估了他们的技术,每个基准都包含一个微调数据集。他们使用逐步蒸馏来修正这些数据集,并使用了参数不到 1B 的微调 T5 模型。他们发现,这些模型在仅使用数据集的一小部分数据的情况下,性能就比基线微调模型要好;在某些情况下只要 12.5% 的数据就有这样的表现。他们还发现,他们的 770M 参数模型在 ANLI 基准测试中的性能优于大它 700 倍的 540B 参数 PaLM,同时只需要 80% 的微调数据集数据。

在 X(以前的 Twitter)上关于这项工作的讨论中,人工智能企业家 Otto von Zastrow 写道:

这些结果非常厉害。我会把这种办法叫做合成数据生成,而不是蒸馏,我真的很好奇,如果你根据每个示例问题的合成理由来训练原始的 LLM 会发生什么事情。

逐步蒸馏的源代码和训练数据集可在 GitHub 上获取。Google Cloud 的 Vertex AI 平台还提供该算法的非公开预览。

原文链接

https://www.infoq.com/news/2023/10/google-distillation/

声明:本文由 InfoQ 翻译,未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐
被时代选中的智谱 AI:成为 OpenAI,超越 OpenAI
OpenAI 用45分钟重塑游戏规则!干掉 MJ、LangChain,创造“不会编程的应用开发者”新职业
vivo 发布基于 Rust 的操作系统,全球首款?字节跳动宣布除夕统一放假;大妈招女婿要求大模型从业人员 | Q资讯
产品 + 工程 + 人才,网易数帆如何将数智生态方法论落地生根?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源单GPU运行数千大模型!UC伯克利提出全新微调方法S-LoRA免费直播|简历怎么写更容易拿到面试?简历精修与面试经验极为丰富的大佬Step by Step带你打造简历!Llama2 7B中文魔改PK:「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调Heilongjiang Gymnasium Collapse Kills 3 Middle School StudentsAI早知道|抖音即创平台上线;零一万物发布并开源Yi微调模型;亚马逊宣布推出全新一代语音基础模型驱动的ASR系统大模型生成提速2倍!单GPU几小时搞定微调,北大数院校友共同一作丨开源重磅! 谷歌开放2024实习岗, 大一到PhD都有! 速投!斯坦福NLP提出EFT:如何不实际微调而“假装”微调了LLM?0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性游沧浪亭这本谷歌内部疯传的《Storytelling with Data》,零基础也能入门!复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据谷歌开始新一轮“瘦身”计划 招聘团队全球数百人被裁硬核观察 #1149 谷歌开源了一个键帽形键盘,摇头输入资讯:谷歌开放参观中心、中信证券计划扩张海外业务、蔚来透露美国业务计划...GPT 3.5 与 Llama 2 微调的综合比较小说:兰欣与乌茶 31狮子林Providing Long-Term Care for Shanghai’s Most Vulnerable ResidentPreparing for the 2023 Tax Year: Ensuring a Strong Tax Saving?Hugging Face宣布最受欢迎的AI机构;零一万物上线Yi-34B-Chat微调模型及量化版丨AIGC日报美国赠与和继承(三)继承对增值税的影响, step这本谷歌内部疯传的《Storytelling with Data》,太绝了!选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了Push传谷歌开始小范围测试Gemini:比训练GPT-4算力大5倍,多模态能力大提升GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发猎户星空推出微调大模型,多项测评霸榜,开源免费!【惠宜教育2023美高招生讲座】圣斯蒂芬教会学校 St. Stephen's Episcopal School TX昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源什么是三民主义(第四章摘要)昨晚:探访北欧维京人古航道在夕阳中之美人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源3300万美元,谷歌开启5年脑计划!绘制小鼠大脑2-3%图谱,大约一个珠穆朗玛峰的数据量
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。