Redian新闻
>
国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题

国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题

公众号新闻

未来可探索三大方向:系统架构、用户交互性、模态能力。

编辑 |  ZeR0

奔向通用人工智能,大模型又迈出一大步。
智东西4月25日报道,近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。
Vitron解决了困扰大语言模型产业已久的图像/视频模型割裂问题,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行全面的理解、生成、分割和编辑等任务,能处理复杂的视觉任务,擅长视觉理解和任务执行,同时支持与用户的连续操作,实现了灵活的人机互动。


论文链接:https://is.gd/aGu0VV

开源代码:https://github.com/SkyworkAI/Vitron
该模型在四大视觉相关任务的功能支持及其关键优势如下:

这展示了通向更统一的视觉多模态通用模型的巨大潜力,为下一代通用视觉大模型的终极形态奠定了基础。

01.
应对视觉任务关键挑战,
提出大一统的多模态大语言模型


构建更通用、更强大的多模态大语言模型(MLLM)被视作通向通用人工智能(AGI)的必经之路。
通过引入能进行视觉感知的模块,扩展纯语言基础大语言模型(LLM)至MLLM,近年来有很多擅长图像理解的研究成果冒出,比如如BLIP-2、LLaVA、MiniGPT-4等。专注于视频理解的MLLM也陆续面世,包括VideoChat、Video-LLaMA和Video-LLaVA等等。
研究人员主要从两个维度试图进一步扩展MLLM的能力。
一是尝试深化MLLMs对视觉的理解。从粗略的实例级理解过渡到对图像的像素级细粒度理解,从而实现视觉区域定位能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。
二是尝试扩展MLLM可以支持的视觉功能。部分研究已经开始研究让MLLM不仅理解输入视觉信号,还能支持生成输出视觉内容。比如,GILL、Emu等模型能够灵活生成图像内容,GPT4Video、NExT-GPT实现了视频生成。
当前AI社区认为视觉MLLMs必然会朝着高度统一、能力更强的方向发展。
这条路存在一些关键挑战。比如很大一部分工作都没有实现细粒度像素级别的视觉理解,或者缺乏对图像和视频的统一支持,或者对于各种视觉任务的支持不充分,离通用大模型相差甚远。
下表简单归纳了现有部分视觉MLLM模型的能力:

研究人员认为,未来MLLM应该是一个通用大语言模型,能覆盖更广泛的视觉任务和操作范围,实现对所有视觉相关任务的统一支持,达到“one for all”的能力。这对实际应用尤其是在经常涉及一系列迭代和交互操作的视觉创作中至关重要。
例如,用户通常首先从文本开始,通过文生图,将一个想法转化为视觉内容;然后通过进一步的细粒度图像编辑来完善初始想法,添加更多细节;接着通过图像生成视频来创建动态内容;最后进行几轮迭代交互,如视频编辑,完善创作。 
为了弥补上述差距,研究团队提出一种通用的像素级视觉MLLM——Vitron。

02.
Vitron系统架构包含三大模块,
模型训练有三个阶段


Vitron采用了与现有相关MLLM相似的架构,包括三个关键部分:1) 前端视觉&语言编码模块;2) 中心LLM理解和文本生成模块;3) 后端用户响应和模块调用以进行视觉操控模块。

▲Vitron整体框架

    • 前端模块:视觉-语言编码。为了感知图像和视频模态信号并支持细粒度用户视觉输入,集成了图像编码器、视频编码器、区域框/草图编码器。

    • 中心模块:核心LLM。采用Vicuna(7B,1.5)来实现理解、推理、决策制定和多轮用户交互。

    • 后端模块:用户响应与模块调用。采用以文本为中心的调用策略,整合现成的几个强大先进(SoTA)的图像和视频处理模块,用于解码和执行从低层到高层的一系列视觉终端任务。通过采用以文本为中心的模块集成调用方法,不仅实现了系统统一,还确保了对齐效率和系统可扩展性。

    基于上述架构,再对Vitron进行训练微调,实现更强的视觉理解和任务执行能力。其模型训练主要包括三个阶段。
    步骤一:视觉-语言整体对齐学习。将输入的视觉语言特征映射到一个统一的特征空间中,从而使其能够有效理解输入的多模态信号。这是一种粗粒度的视觉-语言对齐学习,可以让系统具备整体上有效处理传入的视觉信号。研究人员采用了现存的图像-标题对(CC3M)、视频-标题对(Webvid)和区域-标题对(RefCOCO)的数据集进行训练。
    步骤二:细粒度的时空视觉定位指令微调。系统采用了调用外部模块方式来执行各种像素级视觉任务,但LLM本身并未经过任何细粒度的视觉训练,这将会阻碍了系统实现真正的像素级视觉理解。为此,研究人员提出了一种细粒度的时空视觉定位指令微调训练,核心思想是使LLM能够定位图像的细粒度空间性和视频的具体时序特性。
    步骤三:输出端面向命令调用的指令微调。上述第二阶段的训练赋予了LLM和前端编码器在像素级别理解视觉的能力。这最后一步,面向命令调用的指令微调,旨在让系统具备精确执行命令的能力,允许LLM生成适当且正确的调用文本。
    由于不同的终端视觉任务可能需要不同的调用命令,为了统一这一点,研究人员提出将LLM的响应输出标准化为结构化文本格式,其中包括:
      • 用户响应输出,直接回复用户的输入。

      • 模块名称,指示将要执行的功能或任务。

      • 调用命令,触发任务模块的元指令。

      • 区域(可选输出),指定某些任务所需的细粒度视觉特征,例如在视频跟踪或视觉编辑中,后端模块需要这些信息。对于区域,基于LLM的像素级理解,将输出由坐标描述的边界框。


      03.
      评估四大主要视觉任务性能,
      展示灵活人机交互能力


      研究人员基于Vitron在22个常见的基准数据集、12个图像/视频视觉任务上进行了广泛的实验评估。Vitron展现出在四大主要视觉任务群组(分割、理解、内容生成和编辑)中的出色性能,同时其具备灵活的人机交互能力。
      以下代表性地展示了一些定性比较结果:
      视觉分割:

      ▲图像指代图像分割结果

      细粒度视觉理解:

      ▲图像目标指代理解结果

      ▲视频QA结果

      视频生成:

      ▲文生图

      ▲文生视频

      ▲图生视频

      视觉编辑:

      ▲图像编辑结果

      具体更多详细实验内容和细节参见论文。

      04.
      结语:未来可探索三大方向,
      系统架构、用户交互性、模态能力


      Vitron在综合性、技术创新、人机交互和应用潜力等方面展现出独特的优势和潜力,有助于推动了多模态大模型的发展,并为未来的视觉大模型研究提供了一个新的方向。
      昆仑万维2050全球研究院一直致力于打造一家面向未来世界的卓越科学研究机构,与科学社区共同跨越“奇点”,探索未知世界,创造美好未来。该研究院此前已发布并开源了数字智能体研发工具包AgentStudio,未来还将持续推动AI技术突破。
      其团队联合研发的Vitron系统表现出强大的通用能力,但前方依然存在一些局限性。
      研究人员列出了未来可进一步探索的三个方向:
      1、系统架构
      Vitron系统仍采用半联合、半代理的方式来调用外部工具。虽然这种基于调用的方法便于扩展和替换潜在模块,但这也意味着这种流水线结构的后端模块不参与到前端与LLM核心模块的联合学习。这一限制不利于系统的整体学习,这意味着不同视觉任务的性能上限将受到后端模块的限制。
      未来的工作应将各种视觉任务模块整合成一个统一的单元。实现对图像和视频的统一理解和输出,同时通过单一生成范式支持生成和编辑能力,仍然是一个挑战。
      目前一种有希望的方式是结合modality-persistent的tokenization, 提升系统在不同输入和输出以及各种任务上的统一化。
      2、用户交互性
      与之前专注于单一视觉任务的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促进LLM和用户之间的深度交互,类似于行业内的OpenAI的DALL-E系列,Midjourney等。实现最佳的用户交互性是本项工作的核心目标之一。
      Vitron利用现有的基于语言的LLM,结合适当的指令调整,以实现一定程度的交互。例如,系统可以灵活地响应用户输入的任何预期消息,产生相应的视觉操作结果,而不要求用户输入精确匹配后端模块条件。
      然而,该工作在增强交互性方面仍有很大的提升空间。例如,从闭源的Midjourney系统汲取灵感,不论LLM在每一步做出何种决定,系统都应积极向用户提供反馈,以确保其行动和决策与用户意图一致。
      3、模态能力
      当前,Vitron集成了一个7B的Vicuna模型,其可能对其理解语言、图像和视频的能力会产生某些限制。
      未来的探索方向可以发展一个全面的端到端系统,比如扩大模型的规模,以实现对视觉的更彻底和全面的理解。此外,应该努力使LLM能够完全统一图像和视频模态的理解。



      微信扫码关注该文公众号作者

      戳这里提交新闻线索和高质量文章给我们。
      相关阅读
      颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资中国移动千亿多模态大模型发布,「九天-九九」风趣畅聊堪比GPT-4o李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源HuggingFace烧钱做了一大批实验,揭示多模态大模型哪些trick真正有效AI早知道|百度即将发布全新App腾讯元宝;行业首发多模态大模型辅助视障人士港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!美股基本面 - 2024_02_25 * 晚报 * 日经创下新高后涨势难止,日本央行狂赚32万亿日元。坚守还是改变:日本央行的2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院ACL 2024 | 多模态大模型能揭示图像背后的深意吗?长篇小说连载《此世,此生》第五十八章四熵泱——第二十六章荐书丨中山大学 HCP 实验室专著《多模态大模型》重磅发布未央播报 | 央行进一步推动优化支付服务工作 OpenAI发布多模态大模型GPT-4o8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare北京/上海内推 | 小红书智能创作团队招聘多模态大模型算法工程师/实习生只要千元级,人人可用百亿级多模态大模型!国产「AI模盒」秒级训练推理上海AI Lab开源首个可替代GPT-4V的多模态大模型万字长文总结多模态大模型最新进展(Modality Bridging篇)五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准北京内推 | 中国电信人工智能研究院招聘多模态大模型算法研发实习生文末送书 | 中山大学HCP实验室专著《多模态大模型》重磅发布国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet没看《繁花》,看了西瓜中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度通道
      logo
      联系我们隐私协议©2024 redian.news
      Redian新闻
      Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。