Llama 3.1 会助推这波「小模型」热潮吗?
机器之心PRO · 会员通讯 Week 30
---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
1. Llama 3.1 会助推这波「小模型」热潮吗?
Llama 3.1 405B 训的小模型为什么更强?今年哪些头部AI公司在做小模型?Meta 还提出了哪些做小模型的技巧?提到了哪些小模型相关的工作?都在做小模型,Scaling law 还重要吗?小模型相比大模型优势在哪?更强的小模型要如何「炼」?...
2. AI 视频生成赛道:谁有机会吃蛋糕?谁在陪跑?
今年出现了哪些 AI 视频生成工具?新工具/模型追上Sora了吗?视频生成赛道哪些玩家拿到钱了?视频生成的 PMF 有苗头了吗?哪些火过的团队没动静了?...
3. 一站式 LLM 指南:论文深度剖析大型语言模型全貌
Cosmo IMD 的高级研究科学家 Giorgio Roffo 的论文都盘了LLM的哪些方面?重点讲了哪些内容?提升LLM性能的关键技术有哪些?在资源受限环境中下,如何更好地部署大模型?...
...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 13 项,国内方面 7 项,国外方面 9 项。
要事解读① Llama 3.1 会助推这波「小模型」热潮吗?
在发布Llama 3.1 405B 开源大模型时,扎克伯格其文章《Open Source AI Is the Path Forward》中特别提到:「较于闭源模型,这些开源模型在成本效益上显著提升,特别是 405B 模型的开源特性,使其成为微调和蒸馏小型模型的最佳选择。」
1、Meta 于近期发布的 Llama 3.1 405B 因尺寸为开源模型中最大,性能媲美顶尖闭源模型等特征而引起了业内热议。在该模型发布前,多家头部机构发布了小尺寸模型,掀起了一阵「小模型」工作的热潮。然而,Llama 3.1 405B 虽然「庞大」,但似乎并不会阻止小模型热潮的延展。
① 自今年以来,Meta 发布了 350M 的 MobileLLM;微软推出了 Phi-3 系列小模型;谷歌开源 Gemma 2 为 9B 和 27B 两种参数规模;苹果开发了 DCLM-7B;Hugging Face 推出了135M、360M 和 1.7B 规模的 SmolLM,OpenAI 推出 GPT-4o mini;Mistral AI 和英伟达共同开发了12B 参数的 Mistral NeMo。
2、Meta 发布 Llama 3.1 405B 版本对比此前的 Llama 系列模型,在参数、预训练数据等方面均有提升。[9]
① Llama 3.1 405B 支持多种语言,上下文长度达到 128K,在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级 AI 模型相媲美,其在一系列关键基准测试上的性能与 GPT-4o 十分接近。
② Llama 3.1 在大约 15 万亿的多语言 Token 语料库上进行了预训练,而 Llama 2 只使用了 1.8 万亿 Token。
③ Meta为此优化了整个训练堆栈,预训练采用超过 16,000 个 H100 GPU ,3.8 × 10²⁵ 次浮点运算(FLOPs),超过 Llama 2 的最大版本近 50 倍。
3、除了 Llama 3.1 405B ,Meta 还推出了 8B 和 70B 模型的升级版本,并在《The Llama 3 Herd of Models》论文中强调了在小模型上的投入,称其对较小模型进行的训练时间远超了计算最优的时长。
① Meta 在论文中表示,这些较小模型在相同推理预算下的表现优于计算最优模型,他们在后训练阶段使用了 Llama 3.1 405B 进一步提高了 70B 和 8B 模型这些较小模型的质量。
② 升级后的 8B、70B 两个版本同样支持多种语言,上下文长度达到 128K,并与具有相似数量参数的闭源和开源模型具有竞争力。
③ Llama 3 8B 几乎在每个任务类别中都优于竞争模型;Llama 3 70B 在大多数基准测试中都优于 Llama 2 70B。
4、Meta 还在论文中分享了数据对小模型能力的关键作用。
① 在后训练中,Meta 通过多轮对齐来完善 Chat 模型,涉及监督微调(SFT)、拒绝采样和直接偏好优化。大多数 SFT 样本由合成数据生成。其中, 大多数 SFT 样本均采用合成数据。
② Meta 还重点介绍了退火数据(Annealing Data)的作用。通过在少量高质量代码和数学数据上进行退火处理,可以显著提升预训练模型在关键基准测试上的性能。该方法对 8B 小模型在逻辑代码能力方面有明显提升。在 15T Tokens 的预训练中,占比分别为知识 50%、数学 25%、代码 17%、多语言 8%。
表:2024年以来头部AI机构发布的小模型汇总。[1] - [9]
「小模型」热潮下,Scaling law 还重要吗?
1、在 Scaling Law 的「指引」下,语言模型越训越大。然而,对于Scaling Law是否真的有效的质疑声在业界一直存在,大模型的能力是否会随着参数量、算力、数据的增加而不断突破当前的上限?
2、Google DeepMind 团队的论文《Training Compute-Optimal Large Language Models》认为,实现 LLMs 计算成本的最优,模型的规模和训练数据量(token 数)应保持成比例的增长,即模型规模翻倍时,训练数据量也应相应翻倍。[12]
① 对于较小的模型,增加数据量以训练较大的模型能提升性能;对于较大的模型,使用更多数据训练较小的模型同样能带来改进。简单来说,即使模型规模较小,但如果用更多的数据进行训练,也可能达到很好的效果。
3、对 Scaling Law 的另一点质疑方向是,模型性能的提升是否存在一个「临界点」?有一种声音认为,当超过这个点后,继续无限制增加模型规模,带来的提升效果可能会变得非常有限。因为当模型达到一定的复杂度后,其泛化能力和稳定性会受到损害,更容易出现过拟合等问题。
3、按照 Scaling Law,更小参数模型的性能表现应该劣于更大参数模型。但随着更多优质小模型工作的出现则从侧面质疑了 Scaling Law 的有效性
① 来自 Meta AI 团队的论文《LLaMA: Open and Efficient Foundation Language Models》里的表述较为直观,「小型模型如果接受大量数据的训练,它们的表现可以匹敌甚至超过规模更大但数据量较少的模型。」[13]
微信扫码关注该文公众号作者