Redian新闻
>
效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜

效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜

公众号新闻
白交 发自 凹非寺
量子位 | 公众号 QbitAI

一句话,就让绿巨人戴上VR眼镜。

4K画质那种。

熊猫的奇幻漂流~

这是字节最新的AI视频生成模型MagicVideo-V2,各种奇思妙想的想法都能实现。它不仅支持4K、8K超高分辨率,轻松hold各种绘图风格。

从左往右:油画风、赛博风、设计风

测评效果超过Gen-2、Pika以及现有AI视频生成工具。

结果上线不到24小时就引发众人围观,比如一条推文就有近20万浏览量。

不少网友惊讶其效果,甚至直言:比runway和pika还要好

“比runway和pika还要好”

研究人员也的确进行了实际的效果比较。选手分别为:MagicVideo-V2、StabilityAI的SVD-XT,新潜力玩家Pika1.0,以及Runway的Gen-2

第一轮:光影效果

夕阳西下,旅行者独自行走在迷雾森林中。

(从左到右依次是:MagicVideo-V2、SVD-XT,右上Pika,右下Gen-2,下同)

可以看到,MagicVideo-V2、Gen-2和Pika都有明显的光影。不过Pika看不出是为旅行者,MagicVideo-V2的色调更为丰富。

第二轮:情境剧情的表达。

1910 年代的情景喜剧,讲述社会中的日常生活和琐事

这一轮明显也是MagicVideo-V2、Gen-2更胜一筹。SVD-XT呈现的中景构图,虽然年代体现出来了,但表达不够。

第三轮:写实。

小男孩在公园的小路上骑着自行车,车轮踩在碎石上发出嘎吱嘎吱的声音.

这次对比就更为明显了。MagicVideo-V2和SVD-XT是完整体现出句子意思的,不过MagicVideo-V2可以看到小孩明显脚在动的细节。

除此之外,研究人员还将MagicVideo-V2与当下最先方法进行一对一的人类评估。

结果显示,相较于其他方法,人们认为MagicVideo-V2的效果更好。


(绿色、灰色和粉色条分别代表 MagicVideo-V2 被评价为更好、相当或较差的试验效果。)

如何实现?

简单来说,MagicVideo-V2是一条视频生成流水线,集成了文本到图像模型、视频运动生成器、参考图像嵌入模块、插值模块。

首先是有T2I模块首先根据文字生成1024×1024图像,随后I2V模块对该静态图像进行动画处理,生成600×600×32的帧序列,然后再用V2V模块增强,并完善视频内容,最后再用插值模块将序列扩展到94个帧。

这样一来,既保证了高保真,时间上也有连续性。

不过早在2022年11月字节曾推出了MagicVideo V1版。


不过,当时更强调的是高效性,它能在单个GPU卡上生成256x256分辨率的视频。

参考链接:
https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20
项目链接:
https://magicvideov2.github.io/
论文链接:
https://arxiv.org/abs/2401.04468
https://arxiv.org/abs/2211.11018

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌发布AI视频生成模型;传微软组建新GenAI团队;蚂蚁成立AI创新部门丨AIGC大事日报超越GPT-4,Google发布大模型Gemini/苹果明年初或将推出多款新品/五月天阿信回应假唱风波通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5韦伯太空望远镜怎么看(2),顺带解释一下暗物质与暗能量字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2红色日记 不玩围棋 4.16-30测评数据超越GPT-4,谷歌推出全新AI模型Gemini效果超越SDXL!港中大博士生推出超真实人像合成工具,训练用了3.4亿张图视频生成新突破!字节跳动提出PixelDance:轻松呈现复杂动作与炫酷特效一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度,网友:竞赛加码AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVidAI早知道|Pika 募集 5500 万美元资金;阿里推创新视频生成技术Animate Anyone给小鼠戴上VR眼镜,就为知道它在想什么 | 科技趣评还乡记(二)“双向奔赴”精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了百度腾讯推出视频生成模型;传美团AI视觉中心负责人离职;微软研究院回应关闭传言丨AIGC大事日报新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级一句话让马斯克“上天”变成3D动画!生成式AI技术进入爆发期!太突然!字节最新业绩曝光:2224亿,第一超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强?这个框架一测便知Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群《跟着月亮回故乡》&《相见》揭秘最强视频生成模型 Sora,OpenAI 是怎么实现 1 分钟一镜到底的?弥合2D和3D生成之间的次元壁!X-Dreamer:高质量的文本到3D生成模型效果炸裂!OpenAI 发布首个视频生成模型,这就是 AI 视频的 GPT 时刻AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 DebugAI视频年大爆发!Gen-2/Pika成时代爆款,2023年AI视频生成领域的现状全盘点抖音跳舞不用真人出镜,一张照片就能生成高质量视频!字节新技术连抱抱脸CTO都下场体验了全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源口碑翻转,Pika 1.0试用效果折服一大票人,直呼「最佳视频生成器」耶路撒冷3000年和巴勒斯坦4000年4-拜占庭时代视频里有前男友?谷歌最新AI视频生成器 Lumiere,轻松让他消失Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。