Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型
论文地址:https://arxiv.org/abs/2405.03520 GitHub项目地址:https://github.com/GigaAI-research/General-World-Models-Survey
视频生成领域
压缩模型:该模型将原始视频在时间和空间上进行压缩,转换成隐空间的特征进行表示,并且有一个解码器可以将隐空间特征映射回原始视频。 基于 Transformer 的扩散模型:与 DiT(Scalable Diffusion Models with Transformers)方法类似,该模型在隐空间中对含有噪声的视觉特征不断进行降噪处理。 语言模型:使用大语言模型将用户的输入编码为详细的 promts,以此控制视频的生成。
自动驾驶领域
智能体、机器人领域
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章