清华、华为等提出iVideoGPT:专攻交互式世界模型
iVideoGPT,满足世界模型高交互性需求。
论文地址:https://arxiv.org/pdf/2405.15223 论文标题:iVideoGPT: Interactive VideoGPTs are Scalable World Models
首先,它显著减少了 token 化后视频的序列长度,该长度随帧数的增加而线性增长,但增长率 n 要小得多; 其次,通过条件编码,预测后续 token 的 transformer 可以更容易地保持上下文的时间一致性,并专注于建模必要的动态信息。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章