Redian新闻
>
动嘴让梵高神作动起来!朱俊彦团队最新AI模型,文本可控河流方向,电影细腻质感全现

动嘴让梵高神作动起来!朱俊彦团队最新AI模型,文本可控河流方向,电影细腻质感全现

公众号新闻



  新智元报道  

编辑:桃子
【新智元导读】最新AI模型Text2Cinemagraph,只需短短一行字,就可以让艺术大师的作品动起来。

CV大佬朱俊彦的新论文,让动画师感觉危了。

只需要一句话,模型就能将其生成一个风格一致,画质细腻的动画。

以梵高星之夜为参考,创作一个山前小溪流过的画面。

又或以阿夫列莫夫的风格,创作一个瀑布从山间飞跃而下的景观。

近日,来自CMU和Snap机构的研究人员,构建了一个根据文本描述创建电影画面的全自动方法——Text2Cinemagraph。

论文地址:https://arxiv.org/pdf/2307.03190.pdf

另外,研究人员展示了2个扩展功能,为现有绘画制作动画,以及使用文本控制运动方向。

不如,我们先看一波演示吧。

演示来袭


上面梵高星之夜的小溪流向,动动嘴就能控制。

比如,从左到右。

再从右到左。

同样风格下的,不同景观。

电影画质的,海上帆船。

日落时,梵高绘画风格的,山丘之间落下的大瀑布,4K。

毕加索风格,一座小木屋,有一艘船漂浮在湖上。

超逼真的插图,灯塔被海怪袭击,触手包裹整个塔楼。

超现实和梦幻般的瀑布场景

Text2Cinemagraph项目


当前,现有的单图像动画方法,在艺术输入方面存在不足。

而最新的基于文本的视频方法经常会引入时间上的不一致性,难以保持某些区域的静态。

为了应对这些挑战,研究人员提出了从单个文本提示,合成孪生图像(image twin)的想法,即一对艺术图像及其像素对齐。

艺术图像描绘了文本提示中详细描述的风格和外观,而现实图像则大大简化了布局和运动分析。

利用现有的自然图像和视频数据集,Text2Cinemagraph可以准确地分割现实图像,并根据语义信息预测合理的运动。

然后,预测的运动可以转移到艺术图像中,以创建最终的电影动画。

具体来讲,给定一个文本提示 c,用Stable Diffusion生成孪生图像,一个艺术图像x在文本提示中描述的样式中,和一个现实的对应物使用修改后的提示孪生图像有相似的语义布局。

然后,研究人员从艺术图像生成过程中,获得的自注意力映射中提取运动区域的二进制掩码M。

使用掩码和逼真的图像,来预测光流与流预测模型.

由于孪生图像有非常相似的语义布局,可以使用光流与视频生成器让艺术图像动起来。

值得一提的是,这项研究的所有实验都基于Stable Diffusion。

研究者比较了真实的光流效果。

与SLR-SFS、Holynski等人的研究单图像动画方法相比,Text2Cinemagraph所有帧平均的真实光流。

总体而言,最新方法能预测出更合理的运动,与目标区域更吻合。

另外,通过用户偏好调查显示,大多数参与者都赞成Text2Cinemagraph。

最后,研究人员还演示了两个扩展功能:为现有绘画制作动画和使用文本控制运动方向。

为现有绘画制作动画

如下是在俄罗斯博物馆展出的The Ninth Wave (1850)。

由Albert Bierstadt创作的布面油画Minnehaha Falls。

作者介绍


Jun-Yan Zhu(朱俊彦)

朱俊彦现任CMU计算机学院机器人研究所的助理教授,是计算机图形学领域现代机器学习应用的开拓者。

在加入CMU之前,他曾是Adobe Research的研究科学家。

他曾在MIT CSAIL做博士后,与William T. Freeman、Josh Tenenbaum和Antonio Torralba一起工作。

他还在加州大学伯克利分校获得博士学位,在Alexei A.Efros的指导下。并在清华大学获得学士学位,与Zhuowen Tu,Shi-Min Hu和Eric Chang一起工作。

参考资料:
https://text2cinemagraph.github.io/website/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中科院高彩霞团队最新突破:借助人工智能开发出新型碱基编辑器假期也要动起来!超详细暑期体育锻炼指南,快分享给家长孩子! | 精选百度智能云:千帆大模型平台接入Llama2等33个模型,推理成本可降低50%跟着大厨,做几个家常菜!全球首个大模型Agent产品爆款出场!动动嘴让PC成为打工人行业观察 | 碧桂园2023中报:资产充足 风险基本可控又爆一次,李雪琴的嘴让娱乐圈都脸红张文宏团队最新披露!“长新冠”症状究竟如何?超两万人随访数据显示……乐高神Deal!新品/经典款套装全都史低至5折,大促手慢无!固收及固收+投资有何秘诀?景顺长城固定收益及混合资产投资团队最新干货分享来了!给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术粽子历史名城佛罗伦萨北航李洪革教授团队最新成果:智能触控显示芯片设计领域取得突破性进展美本申请心理学方向,高中需要做哪些准备?(含学科设置,薪资结构,发展方向等详细介绍)和《好朋友》一起,乒乒乓乓,动起来!|新书上架警惕口罩危害健康?宁光院士团队最新研究:长时间佩戴N95口罩,或对健康产生负面影响!贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax发生了什么?Sarachi 一夜之间就没了「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023别人小区出门见山,俺们小区出门见熊高福团队最新研究: 我国结束动态清零后,普遍存在长新冠症状,疫苗改善了新冠感染10条河流水位偏高,24条河流超警戒水位......黑龙江今日水情就是这套书,让梵高·莫奈征服了“全世界”!田渊栋团队最新研究:不到1000步微调,将LLaMA上下文扩展到32K几乎0门槛,两年直接转 PR,如果您已经在境澳洲境内,又不想错过这个机会,三级护理证动起来!管轶团队最新发现,我国突发性H3N8病毒,对公众的潜在威胁需要警惕!分解大模型的神经元!Claude团队最新研究火了,网友:打开黑盒钟南山团队最新研究:氢/氧气疗法治疗新冠添新实证北师大团队最新成果:可完全生物降解和生物兼容的离子电子皮肤FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了意料之外!张文宏团队最新发文:男同性恋中,抗正痘病毒的中和抗体水平竟高于普遍20万张图片训练出医用AI大模型,斯坦福团队整理16年来社交网络数据并建库,使用图像或文本即可检索类似病例图像识别更准确!尤洋团队最新研究:全新自适应计算模型AdaTape科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。