Redian新闻
>
人大:大模型综述9月最新升级

人大:大模型综述9月最新升级

公众号新闻
来自:RUC AI Box
进NLP群—>加入NLP交流群

今年3月末,我们在arXiv网站发布了大语言模型综述文章《A Survey of Large Language Models》的第一个版本V1,该综述文章系统性地梳理了大语言模型的研究进展与核心技术,讨论了大量的相关工作。自大语言模型综述的预印本上线以来,受到了广泛关注,收到了不少读者的宝贵意见。

在发布V1版本后的5个月时间内,为了提升该综述的质量,我们在持续更新相关的内容,连续进行了多版的内容修订(版本号目前迭代到V12),论文篇幅从V1版本的51页、416篇参考文献,到V11版本的85页、610篇参考文献,现在进一步扩增到V12版本的97页、683篇参考文献。继6月末发布于arXiv网站的大修版本V11,V12版本是我们两个多月以来又一次进行大修的版本。

相较于V11版本,V12版本的大语言模型综述有以下新亮点:

  1. 新增了对于新兴架构、注意力方式解码策略的简要介绍;
  2. 新增指令微调实用技巧的相关介绍;
  3. 新增了关于RLHF非RL对齐方法的概要介绍;
  4. 具体实验分析更加完善,在指令微调与能力评测实验新增了最新的模型
  5. 新增了对评测方法的讨论,并对已有的评测工作进行总结;
  6. 增补了许多脉络梳理内容,以及大量最新工作介绍;
此外,我们综述的中文翻译版本也在持续更新(目前针对v10版本进行了翻译,并持续更新):
  • 论文链接:https://arxiv.org/abs/2303.18223
  • GitHub项目链接:https://github.com/RUCAIBox/LLMSurvey
  • 中文翻译版本链接:https://github.com/RUCAIBox/LLMSurvey/blob/main/assets/LLM_Survey_Chinese.pdf

以下是综述部分章节的主要更新内容介绍,详细内容请参阅我们的英文综述。

1. 大语言模型相关资源

们对于最新符合条件的模型进行了补充,持续更新了现有的10B+的模型图和表格(如有遗漏,欢迎读者来信补充):

2. 大语言模型预训练技术

在模型架构部分,由于经典 Transformer 架构的注意力机制需要平方级别的时间复杂度进行计算,最近也出现一系列对语言建模新架构的探索,如S4、RWKV、RetNet 等,希望既可以具备 Transformer 在 GPU 上进行并行化训练的优势,也可以低复杂度、高效地进行解码与推断。此外也有一些工作致力于改进传统 Transformer架构的注意力机制或计算方式,使其高效训练和部署。我们新增了几种注意力机制的介绍,包括grouped-query attention,FlashAttention-2,以及PagedAttention。围绕这些内容,我们进行了简要介绍。
此外,我们新增了解码策略子章节,介绍了常见的两种解码策略:贪心搜索和随机采样,并整理了针对这两种策略的改进算法,例如束搜索、top-p采样、top-k采样等策略。此外, 我们介绍了针对大模型的高效解码策略,以及具体模型和API解码时的常用设置。

3. 大语言模型适配技术

在适配技术章节,我们增加了大量讨论及实验分析。
指令微调部分中,我们新增了指令微调的实用技巧介绍。在指令微调实验部分,我们加入了LLaMA-13B模型的指令微调实验针对不同混合数据集的分析。
对齐微调部分中,为了帮助研究者快速有效地实现RLHF,我们提供了RLHF实用策略的介绍,主要包括如何有效地训练奖励模、以及如何高效地进行强化学习训练,希望为后续研究人员提供建设性参考。此外,我们大幅增加了对现有非RL对齐方法的介绍。与RLHF方法采用人工方式收集反馈数据不同,这部分工作主要借助奖励模型与大模型进行自动化的对齐反馈数据收集,并采用较为多样的监督训练方式微调大模型。
最后,我们还针对SFT和RLHF两种训练方法进行了讨论。

4. 大语言模型使用技术

经过预训练或适应性调整后,使用LLM的一个主要方法是设计合适的提示策略来解决各种任务。我们新增了表9对现有提示的代表性工作进行了总结,包括典型的LLM运用方法及其ICL、CoT和规划的重点。
此外,为了处理长程任务,使用长期记忆帮助进行规划是一类重要的方法。我们新增了目前使用记忆机制进行规划的工作,包括反思(Reflexion)和MemoryBank等。

5. 大语言模型能力评估

大模型能力评估方面,我们增加了一个子章节对评测方法进行讨论,分别介绍了对基座模型、微调模型专业模型的相关评测工作。我们总结了已有的评测工作,讨论了基准评测、人类评测模型评测三类评测方法的优缺点。我们在表中总结了现有评测工作。

       此外,随着新的大语言模型发布,我们在经验评测章节新增了多个热门大语言模型的评测结果,包括LLaMA 2 (Chat) 7B、Claude-2和Vicuna 13B,并补充了对新增模型的实验讨论。

6. 综述定位

一篇高质量的长篇综述文章需要大量的时间投入,所参与的老师和学生为此付出了很多的时间。尽管我们已经尽力去完善这篇综述文章,但由于能力所限,难免存在不足和错误之处,仍有很大的改进空间。我们的最终目标是使这篇综述文章成为一个“know-how”的大模型技术指南手册,让大模型的秘密不再神秘、让技术细节不再被隐藏。尽管我们深知目前这篇综述离这个目标的距离还比较远,我们愿意在之后的版本中竭尽全力去改进。特别地,对于预训练、指令微调、提示工程的内在原理以及实战经验等方面,我们非常欢迎读者为我们贡献想法与建议,可以通过GitHub提交PR或者邮件联系我们的作者。对于所有被采纳的技术细节,我们都将在论文的致谢部分中“实名+实际贡献”进行致谢。
我们的综述文章自发布以来,收到了广泛网友的大量修改意见,在此一并表示感谢。也希望大家一如既往支持与关注我们的大模型综述文章,您们的点赞与反馈将是我们前行最大的动力。
7. 本次修订的参与学生名单
学生作者:周昆(新增了指令微调实验的任务设置与结果分析,添加了能力评测实验的实验设置与结果分析,添加了指令微调的实用技巧介绍,添加了RLHF实用策略的介绍)、李军毅(添加了非RL对齐方法的介绍)、唐天一(添加解码策略的介绍)、王晓磊(添加评测方法介绍)、侯宇蓬(添加第四章文字细节,更新图5)、闵映乾(添加第三章少数模型及相关介绍,更新表1、图2)、张北辰(添加表10)、陈昱硕(表8实验)、陈志朋(表12实验)、蒋锦昊(表12实验)、任瑞阳(表12实验)、汤昕宇(表12实验)
学生志愿者:成晓雪(表12实验)、王禹淏(表12实验)、郑博文(表12实验)

附件:更新日志

版本时间主要更新内容
V12023年3月31日初始版本
V22023年4月9日添加了机构信息。修订了图表 1 和表格 1,并澄清了大语言模型的相应选择标准。改进了写作。纠正了一些小错误。
V32023年4月11日修正了关于库资源的错误
V42023年4月12日修订了图1 和表格 1,并澄清了一些大语言模型的发布日期
V52023年4月16日添加了关于 GPT 系列模型技术发展的章节
V62023年4月24日在表格 1 和图表 1 中添加了一些新模型。添加了关于扩展法则的讨论。为涌现能力的模型尺寸添加了一些解释(第 2.1 节)。在图 4 中添加了用于不同架构的注意力模式的插图。在表格 4 中添加了详细的公式。
V72023年4月25日修正了图表和表格中的一些拷贝错误
V82023年4月27日在第 5.3 节中添加了参数高效适配章节
V92023年4月28日修订了第 5.3 节
V102023年5 月7 日修订了表格 1、表格 2 和一些细节
V112023年6月29日第一章:添加了图1,在arXiv上发布的大语言论文趋势图;
第二章:添加图3以展示GPT的演变及相应的讨论;
第三章:添加图4以展示LLaMA家族及相应的讨论;
第五章:在5.1.1节中添加有关指令调整合成数据方式的最新讨论,在5.1.4节中添加有关指令调整的经验分析,在5.3节中添加有关参数高效适配的讨论,在5.4节中添加有关空间高效适配的讨论;
第六章:在6.1.3节中添加有关ICL的底层机制的最新讨论,在6.3节中添加有关复杂任务解决规划的讨论;
第七章:在7.2节中添加用于评估LLM高级能力的代表性数据集的表格10,在7.3.2节中添加大语言模型综合能力评测;
第八章:添加提示设计;
第九章:添加关于大语言模型在金融和科学研究领域应用的讨论。

V12

2023年9月11日第三章:表格1新增模型,图2新增模型;
第四章:在4.2.1节中新增对新型架构的讨论,在4.2.2节中新增对几种注意力机制的介绍,新增4.2.4 节解码策略的介绍;
第五章:在5.1.2节中新增指令微调的实用技巧,在5.1.4节和表格 8中新增LLaMA-13B的指令微调实验分析,在5.2.3节中新增RLHF的实用策略,新增 5.2.4节不使用RLHF的对齐方法介绍,新增 5.2.5节关于SFT和RLHF的讨论;
第六章:新增表格 9 总结了提示的代表性工作,在 6.3节中更新了规划部分对记忆的介绍;
第七章:新增7.3.2节对评测方法的讨论,新增表格11对已有评测工作进行了总结,更新了7.4节经验能力评测及表格12的评测结果。

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
最新综述!预训练大模型用于医疗健康领域的全面调研《剩女的游戏》三大数据在大模型趋势下的“新姿态”:大模型与企业数据充分协同索赔1元的“大模型数据被盗第一案”和解;首个生成式AI监管文件正式施行;雷军:小爱同学已升级大模型丨AI周报2023年9月最新移民排期发布:EB-3、F2-A大幅前进腾讯云 MaaS 最新升级:上架 20 多个主流模型,支持开发者一键调用小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有我的精算生涯(四)大模型infra专场:大模型系统层工作 | 第16届中国R会议暨2023X-AGI大会用魔法打败魔法 Prompt2Model:大模型辅助小模型历史小说《黄裳元吉》第一百一十八章 黑云WAIC十大AI商业落地趋势:大模型新玩家融资难度升级,云计算洗牌战来了南洋理工最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章大模型落地最后一公里:111页全面综述大模型评测接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新章鹏:大模型只是少数人的机会,小模型才是大多数人的机会清华大学:2023大语言模型综合性能评估报告NUS、NTU团队发布医疗大模型综述,全面介绍大模型在医疗领域的最新研究进展综述 | 多模态大模型最全综述来了!汤道生的下一场战事:大模型时代的产业「智能化」升级战怎么打?谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱加拿大卫生部刚刚批准最新升级版新冠疫苗! 今年秋天全民接种松鼠送礼了十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型谷歌20亿美元砸向Anthropic:大模型军备竞赛升级《花尾渡》(小说) 第十六章 豪情尽洒南京路
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。