国际科技财经博客移民网络热点娱乐民生时事公众号

>

动嘴让梵高神作动起来！朱俊彦团队最新AI模型，文本可控河流方向，电影细腻质感全现

动嘴让梵高神作动起来！朱俊彦团队最新AI模型，文本可控河流方向，电影细腻质感全现

公众号新闻

2023-08-21 05:08

新智元报道

编辑：桃子

【新智元导读】最新AI模型Text2Cinemagraph，只需短短一行字，就可以让艺术大师的作品动起来。

CV大佬朱俊彦的新论文，让动画师感觉危了。

只需要一句话，模型就能将其生成一个风格一致，画质细腻的动画。

以梵高星之夜为参考，创作一个山前小溪流过的画面。

又或以阿夫列莫夫的风格，创作一个瀑布从山间飞跃而下的景观。

近日，来自CMU和Snap机构的研究人员，构建了一个根据文本描述创建电影画面的全自动方法——Text2Cinemagraph。

论文地址：https://arxiv.org/pdf/2307.03190.pdf

另外，研究人员展示了2个扩展功能，为现有绘画制作动画，以及使用文本控制运动方向。

不如，我们先看一波演示吧。

演示来袭

上面梵高星之夜的小溪流向，动动嘴就能控制。

比如，从左到右。

再从右到左。

同样风格下的，不同景观。

‍电影画质的，海上帆船。

日落时，梵高绘画风格的，山丘之间落下的大瀑布，4K。

毕加索风格，一座小木屋，有一艘船漂浮在湖上。

超逼真的插图，灯塔被海怪袭击，触手包裹整个塔楼。

超现实和梦幻般的瀑布场景

Text2Cinemagraph项目

当前，现有的单图像动画方法，在艺术输入方面存在不足。

而最新的基于文本的视频方法经常会引入时间上的不一致性，难以保持某些区域的静态。

为了应对这些挑战，研究人员提出了从单个文本提示，合成孪生图像（image twin）的想法，即一对艺术图像及其像素对齐。

艺术图像描绘了文本提示中详细描述的风格和外观，而现实图像则大大简化了布局和运动分析。

利用现有的自然图像和视频数据集，Text2Cinemagraph可以准确地分割现实图像，并根据语义信息预测合理的运动。

然后，预测的运动可以转移到艺术图像中，以创建最终的电影动画。

具体来讲，给定一个文本提示 c，用Stable Diffusion生成孪生图像，一个艺术图像x在文本提示中描述的样式中，和一个现实的对应物使用修改后的提示。孪生图像有相似的语义布局。

然后，研究人员从艺术图像生成过程中，获得的自注意力映射中提取运动区域的二进制掩码M。

使用掩码和逼真的图像，来预测光流与流预测模型.

由于孪生图像有非常相似的语义布局，可以使用光流与视频生成器让艺术图像动起来。

值得一提的是，这项研究的所有实验都基于Stable Diffusion。

研究者比较了真实的光流效果。

与SLR-SFS、Holynski等人的研究单图像动画方法相比，Text2Cinemagraph所有帧平均的真实光流。

总体而言，最新方法能预测出更合理的运动，与目标区域更吻合。

另外，通过用户偏好调查显示，大多数参与者都赞成Text2Cinemagraph。

最后，研究人员还演示了两个扩展功能：为现有绘画制作动画和使用文本控制运动方向。

为现有绘画制作动画

如下是在俄罗斯博物馆展出的The Ninth Wave (1850)。

由Albert Bierstadt创作的布面油画Minnehaha Falls。

作者介绍

Jun-Yan Zhu（朱俊彦）

朱俊彦现任CMU计算机学院机器人研究所的助理教授，是计算机图形学领域现代机器学习应用的开拓者。

在加入CMU之前，他曾是Adobe Research的研究科学家。

他曾在MIT CSAIL做博士后，与William T. Freeman、Josh Tenenbaum和Antonio Torralba一起工作。

他还在加州大学伯克利分校获得博士学位，在Alexei A.Efros的指导下。并在清华大学获得学士学位，与Zhuowen Tu，Shi-Min Hu和Eric Chang一起工作。

参考资料：

https://text2cinemagraph.github.io/website/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

「人与场景交互生成」新突破！天大、清华发布Narrator：文本驱动，自然可控｜ICCV 2023 分解大模型的神经元！Claude团队最新研究火了，网友：打开黑盒乐高神Deal！新品/经典款套装全都史低至5折，大促手慢无！粽子百度智能云：千帆大模型平台接入Llama2等33个模型，推理成本可降低50%20万张图片训练出医用AI大模型，斯坦福团队整理16年来社交网络数据并建库，使用图像或文本即可检索类似病例张文宏团队最新披露！“长新冠”症状究竟如何？超两万人随访数据显示……历史名城佛罗伦萨 10条河流水位偏高，24条河流超警戒水位......黑龙江今日水情又爆一次，李雪琴的嘴让娱乐圈都脸红全球首个大模型Agent产品爆款出场！动动嘴让PC成为打工人发生了什么？Sarachi 一夜之间就没了中科院高彩霞团队最新突破：借助人工智能开发出新型碱基编辑器北航李洪革教授团队最新成果：智能触控显示芯片设计领域取得突破性进展就是这套书，让梵高·莫奈征服了“全世界”！跟着大厨，做几个家常菜！高福团队最新研究: 我国结束动态清零后，普遍存在长新冠症状，疫苗改善了新冠感染 FudanNLP团队最新成果，借助RLHF实现人类对齐的MOSS-RLHF来了管轶团队最新发现，我国突发性H3N8病毒，对公众的潜在威胁需要警惕！假期也要动起来！超详细暑期体育锻炼指南，快分享给家长孩子！ | 精选固收及固收+投资有何秘诀？景顺长城固定收益及混合资产投资团队最新干货分享来了！北师大团队最新成果：可完全生物降解和生物兼容的离子电子皮肤美本申请心理学方向，高中需要做哪些准备？（含学科设置，薪资结构，发展方向等详细介绍）行业观察 | 碧桂园2023中报：资产充足风险基本可控和《好朋友》一起，乒乒乓乓，动起来！｜新书上架警惕口罩危害健康？宁光院士团队最新研究：长时间佩戴N95口罩，或对健康产生负面影响！给大模型生成文本发身份证：针对大模型生成文本的可编码水印技术贾佳亚团队开源全球首个70B长文本大语言模型，读论文看小说直接ProMax 田渊栋团队最新研究：不到1000步微调，将LLaMA上下文扩展到32K 几乎0门槛，两年直接转 PR，如果您已经在境澳洲境内，又不想错过这个机会，三级护理证动起来！图像识别更准确！尤洋团队最新研究：全新自适应计算模型AdaTape 别人小区出门见山，俺们小区出门见熊意料之外！张文宏团队最新发文：男同性恋中，抗正痘病毒的中和抗体水平竟高于普遍钟南山团队最新研究：氢/氧气疗法治疗新冠添新实证科研上新 | 第2期：可驱动3D肖像生成；阅读文本密集图像的大模型；文本控制音色；基于大模型的推荐智能体

热点事件追踪