谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023
新智元报道
新智元报道
【新智元导读】华人博士和谷歌科学家最新提出了预训练视觉语言模型Vid2Seq,可以分辨和描述一段视频中的多个事件。这篇论文已被CVPR 2023接收。
用于密集视频标注的视觉语言模型
对视频进行大规模预训练
下游任务的基准测室结果
定性测试
对标SOTA
实现细节
架构
训练
结论
作者介绍
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章