国际科技财经博客移民网络热点娱乐民生时事公众号

>

最强开源多模态生成模型MM-Interleaved：首创特征同步器，刷新多项SOTA

最强开源多模态生成模型MM-Interleaved：首创特征同步器，刷新多项SOTA

公众号新闻

2024-02-03 05:02

©作者 | 机器之心编辑部

来源 | 机器之心

过去几个月中，随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出，「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。

想象一下，AI 不仅会聊天，还长了「眼睛」，能看懂图片，甚至还会通过画画来表达自己！这意味着，你可以和它们谈天说地，分享图片或视频，它们也同样能用图文并茂的方式回应你。

最近，上海人工智能实验室联合香港中文大学多媒体实验室（MMLab）、清华大学、商汤科技、多伦多大学等多家高校、机构，共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved，借助全新提出的多模态特征同步器刷新多项任务 SOTA。它拥有对高分辨率图像细节和微妙语义的精准理解能力，支持任意穿插的图文输入和输出，带来了多模态生成大模型的崭新突破。

论文地址：

https://arxiv.org/pdf/2401.10208.pdf

项目地址：

https://github.com/OpenGVLab/MM-Interleaved

模型地址：

https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以轻松编写引人入胜的旅游日志和童话故事，准确理解机器人操作，就连分析电脑和手机的 GUI 界面、创作独特风格的精美图片都不在话下。甚至，它还能教你做菜，陪你玩游戏，成为随时听候指挥的个人助理！话不多说，直接看效果。

轻松理解复杂多模态上下文

MM-Interleaved 可以根据图文上下文自主推理生成符合要求的文本答复，它既能算水果数学题：

也能结合常识推理出 Logo 图像对应的公司并进行介绍：

还能精确识别用红色圆圈标注出的手写文字内容：

此外，模型也能直接理解通过序列图像表示的机器人动作：

以及在 Minecraft 中如何建造围栏这样的游戏操作：

甚至能结合上下文，手把手地教用户如何在手机 UI 界面上配置灰度：

以及精准定位找到那架藏在后面的小飞机：

脑洞全开生成不同风格图像

MM-Interleaved 模型同样可以出色地完成各种复杂的图像生成任务。比如根据用户提供的详细描述生成一张三角钢琴的剪影：

或者当用户以多种形式指定所需生成的图像应当包含的物体或风格时，MM-Interleaved 框架也可轻松应对。

比如生成一张水彩风格的大象：

按照狗的风格生成一张猫的画：

在向日葵花丛里的一座木房子：

以及在生成海浪图像时，根据上下文智能推断相应的风格。

图像生成兼顾空间一致性

更令人惊喜的是，MM-Interleaved 还具备根据输入的分割图和对应的文本描述生成图像的能力，并确保生成的图像与分割图在空间布局上保持一致。

这一功能不仅展示了模型在图文生成任务中的卓越表现，同时也为用户提供了更加灵活和直观的操作体验。

自主生成图文并茂的文章

此外，只需提供一个简单的开头，MM-Interleaved 就能自主进行续写，生成语义连贯、图文并茂的文章，题材多样。

无论是关于一朵玫瑰的童话故事：

教你制作苹果汁的教程指南：

还是卡通动漫中的情节片段：

MM-Interleaved 框架都展现出了卓越的创造力。这使得 MM-Interleaved 框架成为了一个无限创意的智能合作者，能够帮助用户轻松打造引人入胜的图文作品。

MM-Interleaved 致力于解决图文交错多模态大模型训练中的核心问题，通过深入研究提出了一种全新的端到端预训练框架。

基于 MM-Interleaved 训练的模型，在参数量更少、不使用私有数据的情况下，不仅在多个零样本多模态理解任务上表现优越，领先于国内外最新研究工作，如 Flamingo、Emu2 等。

还能进一步通过监督微调的方式，在视觉问答（VQA），图像描述（image caption）、指代理解（referring expression comprehension）、图生图（segment-to-image generation）、视觉故事生成（visual storytelling）等多个下游任务上取得更为优异的综合性能。

目前模型的预训练权重及相应代码实现均已在 GitHub 开源。

多模态特征同步器携手全新端到端训练框架

MM-Interleaved 提出了一种全新的端到端训练框架，专门面向图文交错数据。

该框架支持多尺度的图像特征作为输入，不对图像和文本的中间特征添加任何额外约束，而是直接采用预测下一个文本 token 或下一张图像的自监督训练目标，实现单阶段的统一预训练范式。

与以往方法相比，MM-Interleaved 不仅支持交错生成文本和图像，还能高效捕捉图像中更多的细节信息。

此外，MM-Interleaved 的关键实现还包括一个通用的多模态特征同步器（Multi-modal Feature Synchronizer）。

该同步器能够动态注入多张高分辨率图像的细粒度特征到多模态大模型和图像解码器中，实现了对文本和图像的解码生成的同时进行跨模态的特征同步。

这一创新设计使得 MM-Interleaved 为多模态大模型领域的发展注入了新的活力。

多项任务性能领先验

如表 1 和表 3 所示，MM-Interleaved 在零样本多模态理解和生成任务上均取得了卓越的性能。这一成就不仅证明了该框架的强大能力，也突显了其在应对多样化任务时的强大通用性。

表 2 和表 4 展现了 MM-Interleaved 在进行进一步微调后的实验结果，其在指代理解、基于分割图生成图像、图文交错生成等多个下游任务上的性能也十分优异。

这表明 MM-Interleaved 不仅在预训练阶段表现出色，而且在具体任务微调后依然能够保持领先地位，从而为多模态大模型的广泛应用提供了可靠的支持。

结论

MM-Interleaved 的问世标志着多模态大模型的发展朝着实现全面端到端的统一建模和训练迈出了关键一步。

这一框架的成功不但体现在其预训练阶段所展现的卓越性能，而且还体现在微调后在各个具体下游任务上的全面表现。

其独特的贡献不仅在于展示了强大的多模态处理能力，更为开源社区构建新一代多模态大模型开启了更为广阔的可能性。

MM-Interleaved 也为未来图文交错数据的处理提供了新的思路和工具，为实现更加智能、灵活的图文生成和理解奠定了坚实基础。

我们期待看到这一创新为更多领域相关应用带来更多惊喜。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

揭秘最强视频生成模型 Sora，OpenAI 是怎么实现 1 分钟一镜到底的？骁龙888实时运行，美团、浙大等打造全流程移动端多模态大模型MobileVLM 3D重建范式变革！最新模型MVDiffusion++：刷新视图合成和3D重建SOTA！曝小扎写信“挖角”DeepMind；我国10亿级参数大模型超百个；Stability AI开源代码生成模型丨AIGC大事日报被 Sora 抢了风头的谷歌“杀”回来了！谷歌的一群“书呆子”卷出了最强开放模型 Gemma 个人感慨之六十八宪政 ICLR 2024 | 高分工作！Uni3D：3D基础大模型，刷新多个SOTA！小资投资者宇文通凡的开心生活上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升 Suno v3音乐生成模型发布，几秒钟生成完整歌曲；富士通用生成式AI加速药物研发丨AIGC日报被Sora抢了风头的谷歌“杀”回来了！谷歌的一群“书呆子”卷出了最强开放模型Gemma AI早知道｜ChatGPT模型大更新；阿里云发布多模态大模型；百度推多模态模型UNIMO-G 复刻Sora的通用视频生成能力，开源多智能体框架Mora来了 AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan 首创pix2emb范式！NUS清华联合发布NExT-Chat：对话/检测/分割全能多模态大模型国内多所高校共建开源社区LAMM，加入多模态语言模型大家庭的时候到了个人感慨之七十习家帮最强开源多模态生成模型MM-Interleaved：首创特征同步器 6063 血壮山河之随枣会战第三章 17 微软亚研院段楠团队开展视觉内容生成研究，助力解决多模态生成式AI核心难题零一万物Yi-VL多模态大模型开源，MMMU、CMMMU两大权威榜单领先腾讯发表多模态大模型最新综述，从26个主流大模型看多模态效果提升关键方法刷新多个SOTA！腾讯优图提出统一模态新架构UniM-OV3D：3D开放词汇场景理解最强"全开源"多模态基础感知大模型APE发布！在160种测试集上取得强力结果！将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B 骁龙888实时运行！美团&浙大等打造移动端多模态大模型MobileVLM EMNLP 2023 | 阅读顺序很重要：蚂蚁联合复旦提出全新多模态文档信息抽取模型 AI早知道｜百度推出视频生成模型UniVG；Soul APP上线自研语言大模型；清华大学首个大模型 Debug 吉他摇滚、电子音乐都能搞定，Meta开源音频生成新模型MAGNeT，非自回归7倍提速杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生 Google发布最强开源大模型Gemma/苹果OLED产品路线图曝光/小米汽车价格定了？高管辟谣 Sora不开源，微软给你开源！全球最接近Sora视频模型诞生，12秒生成效果逼真炸裂最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发超越 GPT-4V 和 Gemini Pro！HyperGAI 发布最新多模态大模型 HPT，已开源个人感慨之六十九松坡将军

热点事件追踪