开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
张颢继:清华大学本科生,师从唐彦嵩老师,主要研究方向为视频理解。 王逸钦:清华大学深圳研究生院硕士生,师从唐彦嵩老师,主要研究方向为多模态学习。 唐彦嵩博士:清华大学深圳研究生院助理教授,主要研究方向为视频理解与 3D 生成。 刘镛:清华大学深圳研究生院博士生,师从唐彦嵩老师,主要研究方向为视觉分割、视频理解。 冯佳时博士:字节跳动视觉研究的负责人,他的研究领域包括深度学习及其在计算机视觉中的应用。 代季峰博士:清华大学电子工程系副教授,主要研究方向为视觉基础模型与自动驾驶。 项目 Leader,靳潇杰博士:现就职于字节跳动美国研究院,研究方向包括多模态基础模型、生成式学习、视频编辑等。
能够在线处理极长的视频流数据,快速记忆重要信息,实时回答用户提问。 随着输入帧数量的增加,显存开销和回答延迟几乎没有变化,实现了高效的长视频理解。 利用 STAR 记忆机制对不同粒度语义信息进行高效融合,在多个长视频问答 benchmark 上达到 SOTA。
项目主页:https://invinciblewyq.github.io/vstream-page 论文链接:https://arxiv.org/abs/2406.08085 代码仓库:https://github.com/IVGSZ/Flash-VStream 在线体验:https://huggingface.co/spaces/IVGSZ/Flash-VStream-demo
对于空间记忆和特征缓冲区,通过 FIFO(First-In-First-Out)队列更新。队列维护了最新的若干帧,确保模型对最新的细粒度空间信息有较强的感知能力。 对于时间记忆,当输入 token 数量超过记忆容量时,采用加权 K-means 聚类算法进行帧级别的特征聚合。该算法将时间记忆的 token 和新输入的 token 一起聚类为一些簇(簇的数量就是记忆容量,簇的大小是其所包含帧的数量),并用这些簇的质心作为新记忆,代表相应的关键事件信息。这种方法可以简洁高效地存储时序相关的上下文信息。 对于抽象记忆,引入了语义注意力模型(Semantic Attention),将空间与时间特征抽象成最高层次的语义特征。该模型用基于注意力和动量的方式更新抽象记忆,使其始终表示视频级别的高层次语义信息。 对于检索记忆,通过识别关键帧特征进行更新。首先从时间记忆中选择出最大的若干簇,然后从特征缓冲区中检索出与这些簇的质心 L2 距离最近的帧的特征,以此作为关键事件的回忆,为时间记忆补充相应的细粒度信息。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章