大模型的“瘦身”革命：巨头逐鹿轻量化大模型 | 大模型一周大事

2024-04-29 06:04

大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周，轻量化和设备端集成成为行业的热点。微软的 Phi-3 系列小模型和苹果的 OpenELM 系列端侧小模型的发布，展现了 AI 应用向移动设备端迁移的趋势。这也预示着未来智能手机和笔记本电脑等设备将能够处理以往只能在云端或高性能服务器上执行的复杂任务，极大地扩展了端侧 AI 的潜力和应用范围。此外，长文本处理能力的竞争再次增大。Kimi 发布之后，商汤和浪潮分别升级自身模型的长文本能力并展开第二波围剿。

二、具体内容

大模型持续更新

4 月 23 日，微软推出了 Phi-3 系列小模型，并发布了其技术报告。值得注意的是，Phi-3-mini 型号，仅拥有 3.8 亿参数，已在众多性能评估标准上超越了 Llama 3 模型。为了促进开源社区的发展，微软特别设计了与 Llama 系列相兼容的模型架构。

4 月 23 日，商汤科技最近宣布推出了其最新的大模型——日日新 SenseNova 5.0 大模型，该模型采用了混合专家（MoE）架构。SenseNova 5.0 在超过 10TB tokens 的数据集上进行了训练，上下文推理长度达到了 200k。

4 月 25 日，浪潮海岳大模型 2.0 正式发布。在长文本、长图文、长语音处理方面能力进行升级。

开源领域

4 月 22 日，苹果公司开源了 OpenELM 系列小模型，涵盖 2.7 亿、4.5 亿、11 亿和 30 亿四种参数规模。这些模型能在个人设备上运行，包含从 2.7 亿到 30 亿参数的不同版本，旨在推动设备端 AI 应用。

4 月 25 日，Snowflake 推出了名为 Arctic 的开源大型语言模型（LLM）。Arctic 模型采用独特的 Dense-MoE 混合 transformer 架构，以低成本实现较高企业智能水平。此外，Arctic 的上下文窗口初始设置为 4K，团队正在研发支持无限序列生成的技术，未来将扩展到 32K。

多模态领域

4 月 22 日，腾讯 Robotics X 和腾讯 AI Lab 提出了多模态 AI 大模型 SEED-X。该模型是对之前 SEED-LLaMA 的升级版，能够理解任意尺寸和比例的图像，并包含多模态预训练和指令调整两个阶段，使用大规模多模态数据集增强模型的适应性和灵活性。在定量和定性实验评估中展现了卓越的性能，尤其在公共基准测试和现实世界应用场景中表现突出。

4 月 22 日，西湖大学、浙江大学的研究团队发布多模态大型语言模型（MLLM）——Cobra。它利用 Mamba 语言模型并融合视觉编码器，以线性计算复杂度提供高效的推理性能。在多个基准测试中，Cobra 展现了与参数更大型模型相媲美的性能，尤其是理解和处理视觉信息方面。

4 月 25 日，北京大学 Yuangroup 开源的 open-sora 更新升级。新增功能包括支持长达 16 秒的视频生成，最高 720p 的分辨率，并且能够处理不同宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。

科研领域

4 月 22 日，美国 AI 蛋白质设计公司 Profluence 推出了世界上首个开源的 AI 生成的基因编辑器 OpenCRISPR-1。成功实现了对人类基因组的精确编辑。该技术基于与 ChatGPT 相同的方法，通过分析大量生物数据，生成了数百万种自然界中不存在的 CRISPR 类蛋白质，扩展了 CRISPR 家族的多样性。

应用探索

新产品新应用 / 功能

4 月 20 日，文生图服务平台 Leonardo.ai 引入了新的图片样式引导功能。该功能允许用户上传个性化图片以生成更为精确和多样化的图像成果。该功能类似于用户友好的视觉微调工具，使得用户能够根据自己的需求定制连贯的连环画作或保持视觉一致性的宣传海报。

4 月 22 日，腾讯公司宣布其协作 SaaS 产品线全面整合了腾讯混元大模型。这包括了企业微信、腾讯会议、腾讯文档等核心产品，以及腾讯乐享、腾讯电子签、腾讯问卷和腾讯云 AI 代码助手等其他工具。

4 月 25 日，阿里巴巴通义实验室在通义 APP 上线 EMO 模型。该 AI 技术能通过人物照片和音频生成同步口型和表情的视频。为防止技术被滥用，通义实验室在应用内预置了经过审核的音频模板，暂不开放用户自定义音频，并采取了算法和人工两道审核机制，确保内容安全。

智能体

4 月 25 日，Sanctuary AI 推出了第七代 Phoenix 人形机器人。新一代机器人具有更长的运行时间、更快的构建速度、更低的制造成本、增加的运动范围和耐用性，以及更高的视觉和触觉感知能力，同时与麦格纳国际合作，推动通用人工智能机器人在汽车制造等领域的应用。

基础设施

4 月 21 日，中山大学、哈佛大学的研究人员针对多模态大模型的创造力进行研究并提出 Creative Leap-of-Thought（CLoT）的训练方法，旨在打破常规思维，激发模型的创新能力。CLoT 能够有效提升多模态大模型在创造性任务中的表现，超越了包括 GPT-4 在内的其他先进模型。此外，该研究还构建了 Oogiri-GO 数据集，为进一步研究提供了资源。

4 月 22 日，阿里云的百炼平台为 Llama 3 模型提供了一站式的解决方案，覆盖了模型的训练、部署和推理等关键环节。目前，阿里云在一定时间内对 Llama 3 模型的开发和调用实行免费政策，用户可以在百炼模型广场上申请试用 Llama 3，并与其他模型进行性能对比。

4 月 23 日，华为云在香港峰会上宣布，将在香港提供即开即用的 AI 云服务，为大模型训练和推理提供高效、长稳、可靠的 AI 算力。华为云通过全链路云化工具链支持大模型的高效迁移、开发和运行，并特别优化了昇腾云的大模型专区，以支持“百模千态”应用的快速落地。

4 月 24 日，高通发布骁龙 X Plus 芯片。该芯片采用 4nm 工艺，具备 10 核心和最高 3.4GHz 主频，GPU 算力达 3.8TFLOPS，并支持先进的连接技术。该芯片在 AI 性能上达到 45 TOPS，与骁龙 X Elite 相当，且在多线程 CPU 性能上超越了苹果 M3 芯片。

报告推荐

Sora 来袭，国内发展文生视频模型的土壤如何？各公司用脚投票开闭源路线的当下，开源在大模型市场进程中的价值正在被重新定义吗？人型机器人重回视野，大模型是否助力其刷新能力上限？Devin 和智能编码助手是同一条赛道上的不同节点？多家企业宣布 All in AI，对市场意味着什么？答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》，关注「AI 前线」公众号，回复「季度报告」免费下载，一睹为快吧~