Redian新闻
>
大道至简:只靠单一任务训练的语言模型,效果好到惊呆网友

大道至简:只靠单一任务训练的语言模型,效果好到惊呆网友

公众号新闻
羿阁 发自 凹非寺
量子位 | 公众号 QbitAI

训练任务越多,真的意味着泛化能力越强吗?

一项最新的研究告诉我们:No!大漏特漏!

令大部分人意外的是,其实,专攻一个训练任务的专家语言模型在这方面的表现更佳!

数据为证,在11个不同的、未经训练的数据集上,其平均准确率甚至比提示微调模型高出3.20%。

不仅如此,单个专家模型合并后还能表现出超强的组合能力,既不需要访问原始数据,还节省了计算开销。

有网友看完就表示:非常有趣!果然模型并不一定越大越好!

还有网友则感慨:这就是所谓的“简单胜过复杂”吧。

效率、准确性都更高

首先,研究者先为每个训练任务培训了一个专家模型。

从下图可以看出,在总结、问答、情绪分析等“本职任务”上,每个专家模型的表现都很优秀。

例如,当被问到“我们在星期六晚上来到这里,幸运地发现没有我想象中那么拥挤,如果从1到5打分,我会给它打几分?”

该模型精准地拿捏了这段话中“惊喜”的情绪,并回答“4分”。

那么问题就来了,只靠单一任务训练的专家语言模型,泛化能力究竟如何?

为了展示其效果,研究者找来了一个经过提示微调的多任务语言模型T0-3B进行对比。

结果显示,在11个不同的、未经训练的数据集上,专家语言模型的平均准确率比T0-3B要高3.20%

在13个BIG-bench基准数据集上,专家语言模型的平均准确率也要高出1.29%。

不仅如此,研究者还进一步分析了专家语言模型的优点,得出三点结论:

第一,专注于单项任务的专家语言模型能有效避免指令调整过程中经常发生的负迁移问题,也就是更少受另一种学习的干扰。

第二,专家语言模型能够不断学习新的任务,而不必重新训练以前的任务,以避免灾难性遗忘。

过去,当遇到学习新任务的要求时,往往需要不断地在原始任务和额外任务的样本上进行指令调整训练,这种方法既需要访问原始数据,还会导致额外的计算开销。

而现在,仅需要为每个额外的任务培训单独的专家语言模型,并将他们简单地添加到专家库中,就可轻松做到这一点。

实验证明,新方法可以有效地保持可见任务的性能,不过会轻微降低不可见任务的性能(- 0.15%)

第三,个别专家语言模型在合并后能显示出优越的组合能力。

举个例子,当语言模型被要求回答“总结下列英文文本的摘要,并将句子翻译成韩语”时,这其实包含了“概括”和“翻译”两个任务。

研究者分别训练了一个总结模型和5个不同语种的翻译模型,再将它们用分布式训练的方法进行合并,并对它们的组合能力进行了测试。

结果显示,该方法的性能同样优于经过提示微调的多任务语言模型,平均得分高出2.72%。

不过值得一提的是,在论文最后,研究者也特别提到,这一结论与模型大小有直接关系,目前的研究没有包括参数大于11B的模型情况。

研究团队

该研究的团队来自KAIST(韩国科学技术院)、LG AI Research和伊利诺伊大学芝加哥分校。

第一作者Joel Jang,目前是KAIST语言与知识实验室的二年级硕士生,本科毕业于高丽大学计算机科学专业。

该论文是他在LG AI Research实习期间完成。

论文链接如下,感兴趣的小伙伴们可以自取~

论文链接:
https://arxiv.org/pdf/2302.03202.pdf

参考链接:
[1]
https://twitter.com/jang_yoel/status/1623169024489328640/retweets/with_comments
[2]https://joeljang.github.io/

《中国AIGC产业全景报告暨AIGC 50》调研启动

谁会是中国的“ChatGPT”?最有竞争力和潜力的AIGC力量位于何方?

量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术能够被大众看到。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录抖音小红书资深玩家:只看品牌不看效果找死,只看效果不看品牌等死从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力澳洲50年前菜单惊呆网友!牛排只要$0.8,仅两道菜超$1...网友惊呼:我想穿越回去(组图)有哪些省内存的大语言模型训练/微调/推理方法?谷歌出品:基于大型语言模型的语义解析方法中国第一个真正实现智能涌现的国产大语言模型,内测即将开启卖疯了!爆款黑精华居然买一送一,让你皮肤好到惊人DBA学员访谈 | 张素文:大道至简,贵在坚持比 ChatGPT 更早发布的微信大语言模型,现在什么水平?走出富士康,才能走向新天地!MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学:知识增强的预训练语言模型前沿研究进展CogBERT:脑认知指导的预训练语言模型MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型“接骨院”VS“足浴按摩”接种疫苗和感染一次,哪个防护效果好?科学家最新成果ICML征稿禁止使用大型语言模型,LeCun转发:中小型模型可以用吗?美女分享: 洗鼻子防新冠, 效果好!Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源麦当劳“高逼格”餐厅在德州开业,先进到惊呆网友大语言模型,中国这次能不能支棱起来?创业者说 | 达观数据陈运文:探索大语言模型,「对症下药」很关键宇宙人(1213期)全国两会航天声音;天问二号任务已获国家批准立项;NASA将一艘宇宙飞船撞向小行星,效果远超预期Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索全面了解大语言模型,这有一份阅读清单各国新冠超额死亡人数的比较AI大战升级!Meta推出先进大型语言模型,下一个ChatGPT不远了?李玫瑾:7岁前,这样给孩子立规矩,效果好100倍!可扩展、可解释,新框架从预训练语言模型中高效提取知识图谱Meta发布新语言模型,微软推Win11惹众怒,港交所将允许无盈利科技公司上市,京东百亿补贴38节上线,这就是今天的其它大新闻!寅冬红叶鸡爪槭红果冬青黑铁黐AI自给自足!用合成数据做训练,效果比真实数据还好丨ICLR 2023让天下没有难训练的大模型,微软亚洲研究院开源TorchScale
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。