Redian新闻
>
挺看好的一个学妹也在学扩散模型!

挺看好的一个学妹也在学扩散模型!

公众号新闻

2024开年,OpenAI 又发布王炸级产品——Sora,这是一款可以根据文本提示词直接生成视频的工具。(文末送sora书籍)


而Sora技术报告中曾引用了一项研究成果——DiT模型,出自谢赛宁与Sora研发负责人之一WilliamPeebles合著的一篇论文《Scalable diffusion models with transformers》。


为了让大家更好的了解sora,这次我还整理了为Sora视频生成模型提供了重要的技术基础的论文合集,论文涵盖了深度学习、强化学习、生成模型、视频预测、3D 场景表示和渲染等多个领域,免费领取。


 扫码回复“sora”

领取全部论文合集

01: Scalable diffusion models with transformers

核心思想:提出了一种新的扩散模型架构,称为 DiT,该架构使用Transformer 替换了传统的 U-Net 主干。

作者: William Peebles 和 Saining Xie


02: Unsupervised Learning of Video Representations Using LSTMs

核心思想:提出了一种使用长短期记忆 (LSTM) 网络进行视频无监督学习的方法。

作者: Nitish Srivastava, Elman Mansimov, Ruslan Salakhudinov


03: Recurrent Environment Simulators

核心思想:提出了一种基于递归神经网络 (RNN) 的环境模拟器模型,该模型可以预测环境在未来几百个时间步内的状态。

作者: Silvia Chiappa, Sébastien Racaniere, Daan Wierstra, Shakir Mohamed


04: World Models

核心思想:提出了一种使用生成对抗网络 (GAN) 训练世界模型的方法。

作者: David Ha and Jürgen Schmidhuber


05:Generating Videos with Scene Dynamics

核心思想:提出了一种基于生成对抗网络 (GAN) 的视频生成模型,该模型可以生成具有场景动态的视频。

作者: Carl Vondrick, Hamed Pirsiavash, Antonio Torralba


 扫码回复“sora”

领取全部论文合集


06: MoCoGAN: Decomposing Motion and Content for Video Generation

核心思想:

1.提出了一种基于运动和内容分解的视频生成模型 MoCoGAN。

2.该模型可以生成具有逼真运动和内容的视频。

作者: Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan Kautz


07: Adversarial Video Generation on Complex Datasets

核心思想:

1.提出了一种基于生成对抗网络 (GAN) 的视频生成模型,该模型可以生成具有复杂场景和动作的视频。

2.该模型可以用于视频编辑、视频合成、视频游戏等领域。

作者: Aidan Clark, Yaser Sheikh, Dhruv Batra


08: Generating Long Videos of Dynamic Scenes

核心思想:

1.提出了一种能够生成长动态场景视频的生成模型,该模型可以捕捉对象运动、视角变化和新内容生成等要素。

2.该模型可以用于视频编辑、视频合成、虚拟现实等领域。

作者: Tim Brooks, Janne Hellsten, Miika Aittala, Ting-Chun Wang, Timo Aila, Jaakko Lehtinen, Ming-Yu Liu


09: VideoGPT: Video Generation using VQ-VAE and Transformers

核心思想:

1.提出了一种基于 VQ-VAE 和 Transformer 的视频生成模型 VideoGPT,该模型可以生成具有逼真视觉效果和流畅运动的视频。

2.该模型可以用于视频编辑、视频合成、虚拟现实等领域。

作者: Wilson Yan, Chenliang Xu, Xiaohua Zhai, Xiaogang Wang


10: Nüwa: Visual Synthesis Pre-training for Neural Visual World Creation

核心思想:提出了一种通用的视觉合成预训练模型 Nüwa,该模型可以用于各种视觉生成任务,例如文本到图像、文本到视频、视频预测等

作者:Ruiqi Gao、Chenyang Lei、Ming-Yu Liu、Yaser Sheikh、Bo Zhang


因篇幅有限仅展示Sora视频生成模型重要技术基础的论文合集前十篇,扫码回复“sora”获取全部论文合集。



掌握一门新技术,赶上新风口不仅仅是要吃透论文,更需要学习路上的指路人,这次我邀请了顶会审稿人Season老师在3月12日晚20:00带大家速通Sora


直播大纲


1:Sora 的技术路线解读

  • 全新的 diffusion 模型架构

  • Sora如何表征视频

  • Sora是如何处理数据的

  • openAl 和 Sora 成功原因解读

2:从需求出发,生成任务都在发展什么
  • 从GAN 到 diffusion 的发展规律和热点

  • 从图像到视频任务的发展规律和热点 

  • 讲解前沿视频任务都在研究什么

3:预测未来视频领域的发展情况和潜在研究点

扫码预约12日晚20:00直播

大咖带你1小时速通Sora


大佬周鸿袆直言“Sora 意味着 AGI 实现将从 10 年缩短到 1 年”

Sora 为啥这么厉害?因为它是一个扩散模型(Diffusion Model),是在大量不同时长、分辨率和宽高比的视频及图像上训练而成的。《扩散模型:从原理到实战》一书对扩散模型的原理与应用有详尽的说明。

扫描下方二维码参与抽奖。抽取60名同学,包邮送出《扩散模型:从原理到实战》!

加课程老师,免费领书

扫码看讲座、领资料、包邮抽图书


图书将在月末统一寄出,感谢同学们的耐心等待。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
顶流Mamba和扩散模型微信群!CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略精神状态,挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的大学扩招二十年,社会影响几何?巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024生成扩散模型漫谈:信噪比与大图生成(下)AAAI 2024 | 通用图扩散框架:建立不同图神经网络与扩散方程之间的关系参战万亿MoE模型!上海大模型独角兽出手,腾讯阿里米哈游参投ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量容易忽略的几个成本因素Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩全国震怒! 20岁美女在家遭渣男"荣誉处决" 用电线活活绞死 1尸2命! 加拿大三姐妹也丧命抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge【听歌练听力】Suzy Bogguss 版 《红河谷》扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling扩散模型的原理及实现(Pytorch)川石岛国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上从4篇经典论文看扩散模型在图上的研究进展扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力扩散模型微信交流群来了!长篇小说《谷雨立夏间》50 偶遇与约会何恺明谢赛宁团队步步解构扩散模型,最后竟成经典去噪自编码器底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原经验大放送 | 人要朝前看,在这里写下我一战985应统失败的总结,算是给自己一个交代,也分享给学弟学妹!最大Mamba和扩散模型微信群!CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题从文字模型到世界模型!Meta新研究让AI Agent理解物理世界Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型说实话,我是真挺看不上你们过年送的那些东西的...山粉豆腐肉圆子, 口感Q弹筋道,不油腻,越吃越想吃。扩散模型方向微信交流群成立!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。