Redian新闻
>
阿里首提前向训练框架:让大模型深度思考,可快速定制专属模型

阿里首提前向训练框架:让大模型深度思考,可快速定制专属模型

公众号新闻

作者 | 阿里巴巴
策划 | 赵钰莹

大语言模型(LLM)是当前自然语言处理领域最核心的技术,以 GPT-4 为代表的大语言模型展现出了类人的学习能力。其中,情境学习(In-context Learning)是大语言模型最神秘的能力之一。如下图所示,在这种情境学习的范式下,大模型无需更新任何参数,仅依赖几个示例样本(demonstrations)就可以学习新任务,执行新样本的预测。

得益于这种范式的存在,使得大模型可以仅通过修改指令(prompt)和示例 (demonstrations)就在某个具体任务上达到不错的效果,然而当前的情境学习仅通过输入一次示例的方式来进行任务的归纳与推理,存在很大的局限。首先,这种单轮的策略与人类类比学习的决策过程并不一致。

在认知学中,人类通常通过迭代式的思维过程(例如,分析示例、反思示例和形成抽象概念)执行类比学习。可以考虑让大模型通过“思考更长时间”或者“多次思考”,来提升情境学习的能力。其次,一些相关工作指出,情境学习与传统神经网络训练的梯度下降有潜在的联系,一次大模型前向的过程完成了一次隐式的梯度下降,可以看作执行了一次训练。这进一步表明,可以通过多次(迭代)前向训练演示来提高情境学习的效果,让大模型和人类一样,拥有深度思考的过程。

阿里首创前向训练框架

为此,阿里研究团队在《Iterative Forward Tuning Boosts In-context Learning in Language Models》论文中率先提出了一个新的大模型情境学习框架——Deep-Thinking。

论文:https://arxiv.org/abs/2305.13016

代码: https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/deep-thinking

Demo: https://modelscope.cn/studios/huybery/deep-thinking/summary

Deep-Thinking 与传统情境学习不同,它分为两个阶段。第一个阶段为思考阶段,仅将示例作为大模型的输入,然后通过多次迭代来让大模型进行前向“训练 / 思考”,模拟人类不断地观察与学习示例样本。为了做到前向训练,研究团队借助 self-attention 中的 Key, Value 矩阵作为一种“元梯度”。

具体来说,需要执行多个步骤优化过程。在某一次具体的优化过程中,研究团队改造 self-attention 的前向机制,对  Key, Value 矩阵执行了更新 (update) 与 合并 (concat) 操作。更新操作通过当前步骤的元梯度与历史累积到的元梯度进行积累,产生新的元梯度。而合并操作将元梯度进行合并,让网络更深层地表示受到元梯度的增益。需要强调的是,这个过程不依赖反向传播,所以能够大大地降低大模型的训练的成本。第二个阶段为推理阶段,输入待预测的样本与训练阶段产生的最终元梯度,最终执行预测。

Deep-Thinking 拥有两个优势,一方面通过第一阶段的思考可以有效提升下游任务的效果,另一方面,在第二阶段预测时仅需要输入预测的样本与第一阶段学习的产物(K,V 矩阵),无需输入大量的自然语言示例,可以有效节约显存并提升推理速度。

效果

为了评估 Deep-Thinking 相比传统情景学习的优势,该团队评测四种 LLM 的不同尺寸,共 20 个模型在 10 个数据集上的效果,发现都有较好的提升,在某些情况下甚至能得到几十个点的相对提升。

除了定量的评估外,该团队还执行了一些有趣的分析,Deep-thinking 的优化过程和传统的梯度下降优化展现出了一系列有趣的现象:首先,Deep-thinking 也存在类似过拟合的现象,如果迭代过程过多,将会导致效果下降,可以通过引入小规模的验证集来选择合适的迭代次数,这与传统优化中的 Epoch 概念类似;其次,Deep-thinking 的梯度范式也呈现出了与梯度下降相同的趋势,比如更浅的层收敛更快,对学习率敏感等。

展望

传统的模型优化依赖于反向传播算法,但这种方法需要大量的计算资源和庞大的数据集,使得大模型的训练与微调成本非常高昂,成为大模型落地的阻碍之一。

而阿里研究团队提出的 Deep-thinking 是一种迭代式的前向训练框架,摒弃了反向传播的依赖,这将允许用户和企业在具体的任务上低成本的优化大模型效果。企业往往需要保护用户数据的安全性,但同时也需要让模型具备针对特定任务的学习能力。利用 Deep-thinking ,企业可以在不共享大量数据的前提下,根据自身需求快速训练和优化专属模型。这对于提高模型的个性化适应性和隐私保护具有重要意义,这项技术有潜力成为大模型落地的最佳实践。

你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
追剧 《听说你喜欢我》想培养孩子受益终生的深度思考能力,这样的书不能不读!十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl阿里首任COO关明生:中小企业老板为什么既“心累”又“身累”?懒人福音!谷歌让机器训练机器,用大语言模型定制专属于你的家务机器人可直训ChatGPT类模型!华师大、NUS开源HugNLP框架:一键刷榜,全面统一NLP训练多伦多中央岛机场将建立美国边检站 可快速清关!天道不一定酬勤,深度思考比勤奋工作更重要段永平最新的一些深度思考,值得学习对话阿里首任COO关明生:中小企业老板为什么既“心累”又“身累”?两首合唱:《赤伶》&《是否》退休生活杂记:晨景、洗牙保健、跑20英里Google 的 AI 大计划:让大模型变小、嵌入每一个产品百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报深度思考:解决一切情绪问题的答案后院鱼池轶事深度思考:1990年代末的转型对当下有何启示?只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型DeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕柳士同诗稿KDD 2023 | 因果启发的可解释框架:大模型解释的高效之路AI大神贾扬清离职阿里首次受访(下):计算机视觉没有死ICLR 2023|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架大语言模型(LLM)分布式训练框架总结《深度思考》不断逼近问题的本质!香奈儿全球CEO教您职场打怪升级!多加一句话让ChatGPT更多角度、深度思考!大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类特斯拉竟有马斯克专属模式,可无视安全规定法国在驱逐舰上试验激光武器,采用光纤激光技术,可快速击落小型无人机训练开销骤减,10%成本定制专属类GPT-4多模态大模型“管理的极致,是取消管理”,比亚迪王传福的93条深度思考(推荐)ACL 2023 | DaMSTF: 面向领域适应的领域对抗性学习增强自我训练框架ACL 2023 | 复旦邱锡鹏组提出模块化Prompt多任务预训练,可快速适应下游任务
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。