Redian新闻
>
陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More

陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More

公众号新闻
白交 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

造大模型的成本,又被打下来了!

这次是数据量狂砍95%的那种。

陈丹琦团队最新提出大模型降本大法——

数据选择算法LESS, 只筛选出与任务最相关5%数据来进行指令微调,效果比用整个数据集还要好。

指令微调正是让基础模型成为类ChatGPT助手模型的关键一步。

这样一来,让大模型术业有专攻,也就更便宜高效了。

更关键的是,所选的训练数据还具备可迁移性,只要针对特定任务,在其他大模型以及各种类型的模型上同样适用。

快来瞅瞅这篇新鲜出炉的论文到底说了什么?

LESS算法

目前指令微调释放了大模型的强大功能,可有效利用组合数据集开发ChatBot。

但面临的挑战在于,如何从这些数据集中识别出最相关的数据,从而来训练专门的技能。这种情况称为有针对性的指令微调。

为了解决这一难题,受过去相关研究——利用梯度信息估算单个训练数据点影响的启发,研究人员设计了一种优化器感知方法来选择这些数据。

LESS(Low-rank gradiEnt Similarity Search),简言之,优先使用对目标任务有直接帮助的数据进行训练,而不是依赖表面形式特征。

主要分为四个步骤。

首先从训练数据集摘取一小部分子集,用LoRA训练出一个选择模型。

随后,为单个训练数据点计算Adam LoRA梯度特征,并将其保存在梯度数据存储库中。

第三步,选择数据。对于具有少量示例的任务(含多个子任务),研究人员计算每个验证子任务的梯度特征。再从存储库中选出排名前5%训练子集。

最后,训练目标模型。该模型可以使用 LoRA 或完全微调进行训练。

其中第一步和第二步可以离线操作,每个候选训练集D只需计算一次。

归结起来,LESS具备这样几个特性:

  • 与Adam优化器兼容。LESS将梯度信息与优化器状态相结合,来研究数据对模型性能的影响。

  • 高效。LESS使用LoRA和随机投影来构建梯度数据存储,该数据存储具有低维、易操作的梯度特征,允许高效、有效地选择数据集。梯度数据存储可重复用于新的目标任务。

最终在评估结果中,MMLU、TydiQA以及BBH的任务中,5%数据量给大模型训练比整个数据集训练效果要好。

并且同随机选择相比,LESS性能始终高出 2 到 5 个百分点,这表明这一方法十分有效。

此外,他们还特别发现LESS具备可转移性

LLAMA-2-7B上选择的数据结果,在LLAMA-2-13B和MISTRAL-7B的性能(列表LESS- T)同样更好。

甚至有的表现还比自己用LESS的(列表LESS)性能还好。

除此之外,还有可解释性。LESS选择的数据具有与目标任务相似的推理和技能类型,而现有方法(比如BM25、RDS)往往只根据表面形式线索(如语言或文本)选择数据。

陈丹琦团队出品

论文作者来自普林斯顿大学、华盛顿大学的研究人员。

普林斯顿计算机专业的博士生夏梦舟和Sadhika Malladi为共同一作。

其中夏梦舟本科毕业于复旦,硕士毕业于CMU,目前是陈丹琦的学生。

在陈丹琦的个人主页显示,“这些天主要被开发大模型吸引”,正在研究主题包括:

  • 检索如何在下一代模型中发挥重要作用,提高真实性、适应性、可解释性和可信度。

  • 大模型的低成本训练和部署,改进训练方法、数据管理、模型压缩和下游任务适应优化。

  • 还对真正增进对当前大模型功能和局限性理解的工作感兴趣,无论在经验上还是理论上。

前段时间,他们曾提出爆火的“羊驼剪毛”大法——

LLM-Shearing大模型剪枝法,只用3%的计算量、5%的成本取得SOTA,统治了1B-3B规模的开源大模型。

大模型科研的上半场是把参数搞上去实战涌现,下半场嘛,less is more,更小的参数,更好的效果,帮助大模型在更多领域更快落地。

论文链接:
https://arxiv.org/abs/2402.04333

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2023虽然过的不尽人意但是也要总结一下!首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%李飞飞团队新作:AI透视眼!渲染遮挡人体有了新突破!LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」The ‘Invisible’ Cleaners Keeping the Cities Spotless求职干货|TikTok 2024 春招已开!海外求职:数据(数据分析、数据科学、工程)​《再见,布里诺斯艾利斯》国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上解密得物Trace2.0:日PB级数据量下的计算与存储性能优化实战李飞飞团队新作:AI透视眼,穿越障碍看清你,渲染遮挡人体有新突破了kiss是亲,ass是屁股,但kiss her ass可不是“亲她屁股”!【星坛春节综艺会】暖场 《More Than I Can Say》, by 云起 / AP【新春对对碰】《Hallelujah》is 《More Than I Can Say》碰云起与法国妹纸三个臭皮匠顶个诸葛亮?可能是真的,已证实混合多个小模型性能比肩GPT3.5嫉妒的心灵不美丽AmEx Delta SkyMiles Reserve Business 商业信用卡【年费上涨,福利更新,110k 开卡奖励】元英进院士团队新作:通过酶工程让氯酶具有氟酶活性,有望拓展有机氟化合物的生物合成途径开源大模型火了!(附99个大模型微调模型/数据/工具)!In China, the Hottest Travel Accessory Is a Tenured ProfessorBurberry最低3折!Lululemon/Reiss半价!珐琅锅6折!苹果iOS作出重大让步/俞敏洪称公司不应只依赖董宇辉/通义千问新模型性能比肩GPT-4V《重启人生》团队新片!三个疯女人演我精神状态,太对味了!小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式[电脑] 一只蓝色的仓鼠——vaxee AX Wireless Mouse打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原两首《万家灯火》关于朱令铊中毒的一点讨论新加坡事务所Avalon Collective 新作:苏州四季酒店Musk 损失惨重啊啊啊,more than $55 billion的pay package被法官叫停了Recalling A Snowing Feast. 忆雪 (and one more)裁员潮蔓延!eBay宣布"砍9%正职员工",上千人丢饭碗APAD: It is more blessed to give than to receive国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑挥舞起代码语料的魔杖,大模型和智能体将召唤出更强大的能量ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计斯坦福Christopher Manning获2024 IEEE冯诺依曼奖,曾培养陈丹琦等多位华人学生微软亚研院新作:让大模型一口气调用数百万个API!北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生Hans Clevers合作团队新进展!Nauture子刊:具备免疫系统的类器官可评估肿瘤免疫治疗脱靶效应
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。