鲶鱼效应显著！Sora 发布满月，多模态领域成果丰硕 | 大模型一周大事

2024-03-25 15:03

大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

重点发现

本周多模态领域迎来多项重要突破。Stability AI 推出的 SV3D 模型显著提升了 3D 视频生成质量，腾讯等团队推出的 Follow-Your-Click 和 StableDrag 模型分别实现了图生视频和精确图片编辑的功能，而 Seeking AI 等联合提出的 WorldGPT 框架则实现了图片文本到视频的生成与编辑。此外，华中科技大学与字节跳动合作的 GLEE 模型实现了图像视频目标的全面感知，Freepik 的 Reimagine AI 工具简化了图片处理流程，HyperGAI 的 HPT 模型展示了跨模态理解与生成能力，字节跳动发布的 AnimateDiff-Lightning 则大幅提升了文生视频的速度。同时，开源动漫主题的从文本到图像模型 Animagine XL3.1 的发布也丰富了动漫风格的创作可能。这些多模态技术的突破不仅展示了人工智能在处理复杂信息方面的巨大潜力，也预示着未来在内容创作、视觉编辑、虚拟现实等多个领域将出现更多创新和应用。

具体内容

大模型持续更新

垂直领域

3 月 20 号，360 集团宣布 360 安全大模型 3.0 升级发布，系国内首个实现 AI 实战应用的安全行业大模型。据介绍，该模型基于 360 近二十年安全和 AI 领域技术积累总结出的安全大模型核心战法升级而成，可通过智能体框架赋能企业已有的探针、平台，提炼专家知识赋能增强 360 安全云，帮助企业打造数字安全体系。

多模态领域

3 月 19 号，Stability AI 推出基于 Stable Video Diffusion 的 3D 视频生成大模型「Stable Video 3D」（简称 SV3D），该能够显著提升 3D 生成的质量和多视角一致性，效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。
腾讯联合清华、港科大在论文《Follow-Your-Click：Open-domain Regional Image Animation Via Short Prompts》中推出全新图生视频大模型 Follow-Your-Click ，把任意一张照片输入模型后点击想选中的区域再加上少量简单的提示词（如：动作、神态等），图片中原本静态的区域就能动起来。
南京大学、腾讯的几位研究者在《StableDrag: Stable Dragging for Point-based Image Editing》中提出了一个更加稳定和精确的图片拖拽编辑框架（AI拖拽P图）——StableDrag。这一方法中的判别式点跟踪方法能够精确地定位更新的操纵点，提高长程操纵稳定性。而其中基于置信的潜在增强策略能够在所有操纵步骤中，保证优化的潜在变量尽可能地高质量。
来自 Seeking AI、哈佛大学、斯坦福大学以及北京大学的研究人员在《WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs》中提出了一种创新的基于图片—文本的视频生成编辑统一框架，不仅能够实现由图片和文本直接生成视频的功能，还支持通过简单的文本提示（prompt）对生成视频进行风格迁移、背景替换等一系列视频外观编辑操作。
华中科技大学与字节跳动的联合研究团队开发了一款名为 GLEE 的视觉目标基础模型，该模型能够一次性处理图像和视频中的几乎所有目标感知任务。其可以根据任意开放词汇表进行目标检测，并根据目标的外观和位置描述进行分割和跟踪。相关的研究成果发表在论文《GLEE: General Object Foundation Model for Images and Videos at Scale》中。
HyperGAI 发布其多模态大语言模型：HPT具有跨模态理解与生成能力，能处理和生成不同类型数据（如文本、图像、视频等），并能够理解这些不同模态之间的联系和相互作用。
字节跳动发布文生视频大模型 AnimateDiff-Lightning ，其能够更快地根据文本描述生成视频，比起原来的AnimateDiff 模型，速度提升十倍以上。除了能够根据文本生成视频之外，AnimateDiff-Lightning还可以进行视频到视频的生成，比如可以将现有视频转换成不同风格的视频。
一款全新的开源动漫主题的文本到图像模型 Animagine XL3.1 已经正式发布。该版本在原有的基础上进行了一系列的升级和优化，使其对广泛的动漫作品和风格的理解更加深入，通过整合新的数据集，Animagine XL3.1 扩展了其对动漫作品的理解范围，无论是经典的作品，还是最新发布的动漫，都能被该模型准确地捕捉和理解。

科研领域

华盛顿大学 David Baker 团队在最新研究《Atomically accurate de novo design of single-domain antibodies》中使用生成式 AI 来帮助他们制造全新的抗体，这意味着研究人员开始将 AI 引导的蛋白质设计引入价值数千亿美元的治疗性抗体市场。
中国科学院、哈佛大学、斯坦福大学、约翰霍普金斯大学的研究团队在最新的研究《Riboformer: a deep learning framework for predicting context-dependent translation dynamics》中提到了他们开发的一个基于深度学习的框架 Riboformer，主要用于对翻译动态中上下文相关的变化进行建模，并且 Riboformer 能够以密码子分辨率准确预测核糖体密度。
美国麻省总医院、哈佛医学院等组成研究团队迄今为止最大的两个 CPath 基础模型：UNI 和 CONCH。这些基础模型适用于 30 多种临床和诊断需求，包括疾病检测、疾病诊断、器官移植评估和罕见疾病分析。相关研究发布在《Towards a general-purpose foundation model for computational pathology》上。

开源领域

香港科技大学（广州）的研究团队在论文《LLMLight: Large Language Models as Traffic Signal Control Agents》中提出一个基于LLMLight的框架的交通信号控制（TSC）垂类大模型 LightGPT 近期宣布开源。这一模型在信号灯控制这类任务中的决策能力显著优于 GPT-4，即便在济南、杭州、纽约等复杂路网下，也展示出突出的性能。
Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权重，携手全球 AI 热爱者共同推进视频创作的新纪元。
3月18日凌晨，马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家（MoE）模型「Grok-1」，以及该模型的权重和网络架构。这也使得Grok-1成为当前参数量最大的开源大语言模型。

应用探索

产品新应用 / 功能

3 月 17 号，云阙智能在“京师大模型传播应用系统第二期发布暨大模型垂直应用论坛”中正式发布了其创新自主研发的大模型垂直应用——“云阙AI”。该平台具备多模态、跨媒体、全场景的AIGC内容营销能力，旨在赋能企业和超级个体在数字化和智能化转型过程中实现战略升级，并提供综合全面的AIGC专业培训、技术工具及营销解决方案。
月之暗面 Kimi 模型经过升级，目前提供了一个200万字的窗口版，用户可以申请使用。在与Kimi对话的过程中，新增加了一个“继续”功能按钮，旨在不打断模型的思路，以改善交互体验。
通义听悟上新了AI音视频问答助手“小悟”，在业界首次支持了单记录、跨记录、多语言超长音视频自由提问。对于用户上传的视频文件短时间内便可以一键提取出关键词、全文概要以及自动划分好章节，还有要点回顾等，甚至连PPT都可被提取出来。而且，它不仅能够根据音视频记录对用户提出的问题给出答案，还会在最后标出引用出处以及对应时间戳，点击时间戳就能自动跳转到原视频对应位置。
HeyGen 已经发布了其最新的 5.0 版本，这一版本将所有功能进行了整合，为用户提供了更加便捷的体验。为了满足用户对于高效、智能的需求，新版本在用户界面、视频编辑和实时聊天等方面都进行了全面的升级，此次升级无疑将进一步强化 HeyGen 在相关领域的领先地位。
Magnific AI 的照片风格化功能已经正式推出。这个全新的功能可以把你的任何照片转换成你想要的任何风格。无论是想改变任何图像，你都可以轻松控制传输的样式数量和结构完整性，为3D、视频游戏、室内设计、娱乐等多个领域提供了无限的应用可能。
Pipio公司推出了一款创新的视频自动 AI 配音工具，该工具能够将视频中的声音翻译成其他语言，并克隆视频原声进行自动配音，同时保持翻译配音后的声音和翻译语言口型一致。
知名图片资源平台 Freepik 推出了一款名为 Reimagine AI 的革新性工具，该工具以其独特的实时无限滚动生成图像功能，为图片处理领域注入了全新的活力。其能够自动为用户上传的图片生成提示词，无需手动输入文字。这一功能的实现，极大地简化了用户的操作流程，使得图片处理变得更加便捷。
3 月 20 日，“2024知乎发现大会”成功在京举办，会上知乎正式发布了全新 AI 功能“发现·AI搜索”。该功能以社区可信赖内容为来源，给用户带来集新搜索、实时问答和追问功能于一体的全新体验。
3 月 21 日，百度智能云在北京发布 5 款领先的大模型和 55 个全新工具组件，展现其在人工智能领域的创新实力。这些大模型精度更高、适应性更强，为企业提供了强大的智能支持。同时，新工具组件的上线也丰富了平台功能，为用户提供一站式解决方案，推动人工智能技术的更广泛应用。

智能体

清华叉院高阳教授机器人研究团队在最新的研究《CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models》中提出的具身智能框架 CoPa 首次实现了多场景、长程任务、复杂3D行为的泛化能力。CoPa 不仅可以深入理解用户需求的同时，还可以精确地操作物体，完成例如冲咖啡、插花等任务。
3月16日，DeepMind 公布了其在人工智能领域的一项重大突破：SIMA。这是一种通用AI智能体，能够在多种3D虚拟环境中根据自然语言指令执行任务。SIMA包括一个为精确图像-语言映射而设计的模型，以及一个视频模型。SIMA 仅需要屏幕上的图像和用户提供的简单自然语言指令，就能操控游戏中的角色完成指令。

终端 AI

3 月 18 日晚的春季旗舰新品发布会上，荣耀公布了其 AI 使能的全场景战略，并推出了多款新产品。其中荣耀还首次发布了 AI PC 产品—荣耀 MagicBook Pro 16。这款笔记本电脑集成了多项 AI 技术，如 AI 智慧搜索、荣耀OS Turbo 3.0 技术和荣耀 LINK Turbo 技术，以及AI文档总结功能，旨在全方位提升用户体验。
美东时间 3 月 21 日周四，生成式 AI 领军的微软将由 OpenAI 大模型加持 Copilot 功能引入整个产品组合，从 Microsoft 365 到 Microsoft Teams、Edge，现在是 100% 整合进了 Windows 系统本身，可以说只要你有电脑，就能用得上。

基础设施

芯片

在年度 GTC 会议上，英伟达首席执行官黄仁勋宣布推出基于 Blackwell 架构的 B200 系列和 GB200 芯片。B200 拥有 2080 亿个晶体管，足以支持包含多达 10 万亿个参数的 AI 模型。值得注意的是，Blackwell B200 并非传统意义上的单一 GPU，而是由两个紧密耦合的芯片组成，以确保其能够作为单个完全一致的芯片正常运行。
高通已经正式发布了全新的生成式 AI 手机芯片——骁龙 8s Gen 3。这款芯片的定位仅次于最顶级的旗舰产品，但其 AI 性能并未有所减弱。它能够支持在端侧运行拥有100亿参数的大型模型，这与骁龙8 Gen 3 的配置完全相同。此外，它还有能力运行 Baichuan-7B、Google Gemini Nano、Llama2 和 ChatGLM 等多种模型。

算法

来自北京大学林宙辰教授团队在论文《Hebbian Learning based Orthogonal Projection for Continual Learning of Spiking Neural Networks》中提出了一种新的基于赫布学习的正交投影的连续学习方法，其通过神经网络的横向连接以及赫布与反赫布学习，以神经形态计算的方式提取神经元活动的主子空间并对突触前神经元的活动迹进行投影，实现了连续学习中对旧知识的保护。
Maisa 推出了一种名为 KPU 的新型技术框架，旨在通过分离推理和数据处理来优化和提升大语言模型处理复杂任务的能力。使用 KPU 后，GPT-4、Claude 3 Opus 等模型在多个基准测试和推理任务中的表现得到了显著提升，甚至超越了未使用 KPU 的原模型。
在 2024 年的游戏开发者大会（GDC）上，腾讯发布了一款自主研发的游戏 AI 引擎，名为 GiiNEX。这款引擎基于生成式 AI 和决策 AI 技术，能够支持游戏从研发到运营的全生命周期需求。具体来说，无论是 AI NPC 的对话生成，还是场景制作中的 3D 城市建造，以及剧情、关卡、音乐等内容生成，GiiNEX 都能覆盖，并且效率非常高。

除了每周的动态更新，InfoQ 研究中心也将以季度为周期，发布《大模型季度监测报告》，跟踪大模型行业的最新动态和相关产品测试。

《2023 年第 4 季度中国大模型季度监测报告》预计将于 2024 年 3 月底正式发布，届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点和中文特色四大维度展开，欢迎大家持续关注。