Redian新闻
>
北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应

北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 量子位
作者 | 丰色

重磅:

北大团队联合兔展发起了一项Sora复现计划——Open Sora。

框架、实现细节已出:

初始团队一共13人:

带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。

为什么发起这项计划?

因为资源有限,团队希望集结开源社区的力量,尽可能完成复现。

消息一出,就有人北大校友兼AnimateDiff贡献者等人即刻响应:

还有人表示可以提供高质量数据集:

所以,“国产版Sora”的新挑战者,就这么来了?

计划细节,已完成3个初步功能

首先,来看目前公布的技术细节——即团队打算如何复现Sora。

整体框架上,它将由三部分组成:

  • Video VQ-VAE

  • Denoising Diffusion Transformer(去噪扩散型Transformer)

  • Condition Encoder(条件编码器)

这和Sora技术报告的内容基本差不多。

对于Sora视频的可变长宽比,团队通过参考上海AI Lab刚刚提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升级版DiT”)实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。

具体来说, 我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。

对于可变分辨率,团队则表示在推理过程中,尽管在固定的256x256分辨率上进行训练,,但使用位置插值来实现可变分辨率采样。

具体而言:

我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长,则使用VideoGPT中的Video VQ-VAE,,将视频压缩至潜在空间,支持这一功能。

同时,还要在扩展空间位置插值至时空维度,实现对可变时长视频的处理。

在此,主页也先给了两个demo,分别是10s视频重建和18s重建,分辨率分别为256x256和196x196:

这三个功能都已经初步实现。

相关的训练代码也已经在对应的仓库上上线:

成员介绍,目前的训练是在8个A100-80G上进行的(明显还远远不够),输入大小为8帧 128 128,大概需要1周时间才能生成类似ucf(一个视频数据集)的效果。

而从目前已经列出的9项to do事项来看,除了可变长宽比、可变分辨率和可变时长,动态掩码输入、在embeddings上添加类条件这两个任务也已完成。

未来要做的包括:

  • 采样脚本

  • 添加位置插值

  • 在更高分辨率上微调Video-VQVAE

  • 合并SiT

  • 纳入更多条件

  • 以及最重要的:使用更多数据和更多GPU进行训练

袁粒、田永鸿领衔

严格来说,Open Sora计划是北大-兔展AIGC联合实验室联合发起的。

领衔者之一袁粒,为北大信息工程学院助理教授、博导,去年获得福布斯30岁以下亚洲杰出人物榜单。

他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。

研究方向为深度视觉神经网络设计和多模态机器学习,代表性一作论文之一T2T-ViT被引次数1000+。

领衔者之二田永鸿,北京大学博雅特聘教授,博士生导师,IEEE、ACM等fellow,兼任鹏城实验室(深圳)人工智能研究中心副主任,曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。

从目前公布的团队名单来看,其余成员大部分为硕士生。

包括袁粒课题组的林彬,他曾多次以一作或共同一作身份参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态对齐框架LanguageBind(入选ICLR 2024)等工作。

兔展这边,参与者包括兔展智能创始人、董事长兼CEO董少灵(他也是北大校友)和CTO周星。

完整名单:

谁能率先发布中文版Sora?

相比ChatGPT,引爆文生视频赛道的Sora研发难度显然更大。

谁能夺得Sora中文版的首发权,目前留给公众的是一个大大的问号。

在这之中,传闻最大的是字节。

今年2月初,张楠辞去抖音集团CEO一职,转而负责剪映,就引发了外界猜测。

很快,一款叫做“Boximator”的视频生成模型浮出水面。

它基于PixelDance和ModelScope两个之前的成果上完成训练。

不过,很快字节就辟谣这不是“字节版sora”:

它的效果离Sora还有很大差距,暂时不具备落地条件,并且至少还需2-3个月才能上线demo给大家测试。

但,风声并未就此平息。

去年11月,字节剪映悄悄上线了一个AI绘画工具“Dreamina”,大家的评价还不错。

现在,又有消息称:

Dreamina即将上线类似sora的视频生成功能(目前在内测)。

不知道,这一次是不是字节亮出的大招呢?

Open Sora项目主页:
https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
https://github.com/PKU-YuanGroup/Open-Sora-Plan


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北大团队推出Sora复现项目 ;OpenAI回应马斯克起诉;黄仁勋预测5年内AI通过人类测试丨AIGC大事日报柴静谈高耀洁:对历史说真话,才能对现实说真话姚期智领衔,全球首颗零知识证明SOC流片成功劳柯|我们家猫猫Apache 顶级项目 MXNet 退役!大神李沐创办、亚马逊首选深度学习框架如何从大厂“宠儿”到落入“冷宫”?【倒计时2周】4大院士领衔,60+嘉宾阵容!合成领域的学术盛宴,就在 2024(第二届)合成生物学与生物医学健康大会!字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024dá àn jiē xiǎo 🥳刘如谦领衔,GV领投,他们未披露业务就获得近3亿美元融资长篇小说《太门西》连载25:第9章:雨打梧桐(1)全球首次!中国科学家领衔,取得突破性成果北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!每周一曲【视频赏析】:贝多芬的《F大调小提琴浪漫曲》hé bàng?hé bèng?下雪小米14 Ultra领衔,平板、新车、小米15新曝光右翼极右翼呼吁全面结束这种入籍!巴黎连发枪击和持刀袭击!SNCF大罢工要来了再谈复现 Sora:被仰望与被遗忘的王劼音、庞茂琨、洪凌原作领衔,现当代艺术专场,首日截拍英国双院士领衔,合作清华和港理大,这家公司即将量产AC-225医用同位素美联储三把手领衔,高官们开始提到“加息”浙大发布Agent学习框架,13B 模型达到 ChatGPT 水平!微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!常青藤校董领衔,20+位美国名校教授,共邀你参加InAmerica第三届美本规划嘉年华!超20家机构押注、哈佛遗传学大佬领衔,这家公司已开启“返老还童” 密码【衰老标志物检测】Stable Diffusion 3 论文终于发布,架构细节大揭秘,对复现 Sora 有帮助?Stable Diffusion核心团队被曝集体离职;微软利用AI Agent复现Sora丨AIGC日报In China, the Hottest Travel Accessory Is a Tenured Professor外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生丁乙、谭平、薛松、曲丰国原作领衔,现当代艺术专场,今晚截拍鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!免费领丨《Next Move》1-6级,框架完整、体系完善,引领学生探索不同文化!绝对干货!国足首战塔吉克斯坦首发公布!武磊领衔,韦世豪无缘大名单美、日领衔,超级央行周登场2023年的海外华人自媒体人群(2)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。