国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题
编辑 | ZeR0
论文链接:https://is.gd/aGu0VV
▲Vitron整体框架
前端模块:视觉-语言编码。为了感知图像和视频模态信号并支持细粒度用户视觉输入,集成了图像编码器、视频编码器、区域框/草图编码器。
中心模块:核心LLM。采用Vicuna(7B,1.5)来实现理解、推理、决策制定和多轮用户交互。
后端模块:用户响应与模块调用。采用以文本为中心的调用策略,整合现成的几个强大先进(SoTA)的图像和视频处理模块,用于解码和执行从低层到高层的一系列视觉终端任务。通过采用以文本为中心的模块集成调用方法,不仅实现了系统统一,还确保了对齐效率和系统可扩展性。
用户响应输出,直接回复用户的输入。
模块名称,指示将要执行的功能或任务。
调用命令,触发任务模块的元指令。
区域(可选输出),指定某些任务所需的细粒度视觉特征,例如在视频跟踪或视觉编辑中,后端模块需要这些信息。对于区域,基于LLM的像素级理解,将输出由坐标描述的边界框。
▲图像指代图像分割结果
▲图像目标指代理解结果
▲视频QA结果
▲文生图
▲文生视频
▲图生视频
▲图像编辑结果
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章