Redian新闻
>
无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸

无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸

科技


(本文阅读时间:6分钟)


编者按:此前,微软亚洲研究院提出了多模态模型 NUWA,它可以基于给定的文本、视觉或多模态输入生成图像或视频,并支持多种视觉艺术作品创建任务,包括文本到图像或视频的生成、图像补全、视频预测等。近日,微软亚洲研究院公开发表了新的研究成果:NUWA 的升级版——无限视觉生成模型 NUWA-Infinity,让视觉艺术创作趋于“无限流”,可生成任意大小的高分辨率图像或长时间视频。一起来感受一下 AI 的无限创作力吧!


或许你也曾有过这样的想法——那些“世界名画”画框外的景色是怎样的?


让 NUWA-Infinity 带我们去“一探究竟”!


发现梵高《星空》画框外更广阔的风景:



“窥探”《清明上河图》5.287米画卷外百姓们的千姿百态:


《清明上河图

NUWA-Infinity 基于《清明上河图》学习后,重新创作生成画作(分辨率:38912x2048)的一部分


NUWA-Infinity 还可以将静态的图像转化成超高清视频,为其带来“活力”。


原始静态图像


NUWA-Infinity 基于静态图像生成的视频


除此之外,NUWA-Infinity 也可以依据文本生成超高清图片,为艺术创作带来更加丰富的想象力。



是不是意犹未尽,还想探索更多?欢迎大家点击阅读原文,前往 NUWA-Infinity 演示页面,直观感受 NUWA-Infinity 的无限创作能力。


为什么微软亚洲研究院会开发 NUWA-Infinity,背后又用到了哪些新技术?


随着以消费为基础的注意力经济逐渐转为以生产为基础的创意经济,越来越多的人已经成为日常创作者,通过利用各种图片、视频编辑工具,实现艺术作品的创新或再创作。然而,高质量的视觉艺术创作从来都不是一件容易的事,往往需要专业的技能和设备,并花费大量的时间。与此同时,日常的视觉艺术创作对更高分辨率的图像或持续时间更长的视频也有着越来越高的需求。


为此,微软亚洲亚洲研究院 NUWA 团队研发出了无限视觉生成模型 NUWA-Infinity。与同样覆盖图像和视频创作的 NUWA 相比,NUWA-Infinity 在分辨率和可变大小视觉艺术作品生成方面具有更优的性能,并支持五个高分辨率视觉任务的生成,包括无条件图像生成高分辨率图、文本生成高分辨率图像、文本生成高分辨率视频、图像生成高分辨率动画和图像生成高分辨率图像。


在 NUWA-Infinity 模型中,研究员们提出了一种全局自回归嵌套局部自回归的生成机制,通过全局自回归建模视觉块之间的依赖关系和局部自回归建模视觉词之间的依赖关系,让 NUWA-Infinity 能够生成全局一致且局部细节丰富的高质量图像和视频,并提出任意方向控制器(Arbitrary Direction Controller, ADC)来决定合适的生成顺序并学习顺序感知的位置嵌入。相比其他多模态生成模型,NUWA-Infinity 可以从给定的文本、图像或视频生成与之相关的任意形状、任意大小的超高分别率图像,以适配不同设备、平台和场景;更重要的是,NUWA-Infinity 还支持长时间视频的生成,比如图像动画的制作


此外,NUWA-Infinity 模型还引入了附近上下文池(Nearby Context Pool, NCP来缓存已经生成的局部图像,作为正在生成的当前图像的上下文,这可以在不牺牲视觉块间依赖性的前提下,显著节省计算成本。NUWA-Infinity 极大地弥补了市场上现有技术仅支持生成大小有限的视觉内容以及视觉内容创作计算成本高昂的不足。


下一步,NUWA 团队将持续推动 NUWA 的演进,并希望研发出能从三个方面为专业和日常艺术创作者赋能的技术:


  • 构思:通过自动快速和多样化的设计生成能力,降低构思门槛,在构思阶段为艺术创作者提供更多信息和灵感。

  • 美学:降低创意门槛,支持普通用户以适当的美学/设计质量来创作创意作品(NUWA 模型学习了大量高质量/高美学标准的图片)。

  • 效率:通过将 NUWA 的能力集合到一套智能工具中,来提高创作效率,降低创作工作量。


未来,由 AI 生成的高分辨率视觉内容将会更加符合图像设计、广告、动画、游戏等行业的视觉内容创作需求,为创作者提供源源不断的创造灵感。欢迎更多的科研人员、开发者与微软亚洲研究院共同探索AI视觉创作领域的广阔未来。


NUWA 是在科研层面开展的,对视觉艺术作品自动生成技术的前沿探索,旨在探索为视觉艺术创作者提供更智能的工具,支持他们更好地发挥自己的创意。微软始终致力于打击虚假信息,并尽其所能提供最新技术来检测被人为操纵的内容,帮助人们识别“深度伪造”(deepfake)的信息(欲了解微软为打击虚假信息所做的努力,请访问:https://blogs.microsoft.com/on-the-issues/2020/09/01/disinformation-deepfakes-newsguard-video-authenticator/)。同时,微软的技术进步都接受微软负责任的 AI 流程的指导,并遵循公平、包容、可靠性与安全性、透明、隐私与保障、负责的原则。




论文链接:

NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis

https://arxiv.org/abs/2207.09814

演示页面:

https://nuwa-infinity.microsoft.com/


NUWA-Infinity项目页面:

https://www.microsoft.com/en-us/research/project/nuwa-infinity/
















你也许还想看





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
这位法国艺术家,定居大巴山创作漆艺15载《光遇》艺术总监、主美分享:游戏设计理念和视觉艺术设计澳媒:莫里森卸任,达顿将成下一任自由党党魁!这两人将争夺自由党领袖副手,自由党面临严峻挑战...刘广亚:我竞选州议员只是社区服务的延伸自由软件基金会为什么不认为 Debian 是一种自由发行版? | Linux 中国EasyNLP中文文图生成模型带你秒变艺术家在南法的日子(3)----港口小镇Le Somail别的简报|AI 生成的图片获得了艺术奖,艺术家们不太高兴一文看懂NFT:什么样的新事物让设计、艺术和技术从业者着迷?过了个周末,政坛大变天华为成模板?联通加入“军团混战”!河北管钢铁,重庆攻汽车OpenInfra 基金会启动“定向资助”以支持开源项目 | Linux 中国AI 又开“画展”了!Google Brain 推出新的图像生成模型——Imagen这几个月,每次收到快递都让人感觉生活还有点儿惊喜当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍AI创作的画作,动画获大奖遇争议!是艺术的灭亡,还是重生?图像生成模型 Stable Diffusion 现已开源 | Linux 中国想问问这些秋季新品创作者:你们没有创作瓶颈吗?两位 NFT 艺术家和我们聊了聊 Web3 新世界与党“失联”的红色老海归腾讯裁撤NFT交易平台幻核?关于NFT、区块链、Web3.0、元宇宙,我把我知道的,一次性都告诉你。9月14日UWM专属福利: 奶茶披萨无限畅享,申研讲座为你预定TOP10录取还不快来!出门要骑马的上海人AI绘画,创造力,NFT:技术还是艺术?美国潮流艺术创意团体把马云等大佬做成了雪糕,10块钱给你一口吃掉富豪的机会一文详解基于流的深度生成模型若觉生活太难,不妨读读《菜根谭》用 nftwatch 监控你的 Linux 防火墙 | Linux 中国如何在 RHEL 9 上创建本地 Yum/DNF 仓库 | Linux 中国在吸粉之后疫情延伸的暴利行业远比你想象得深海猫揭秘游戏创作方法论,鹰角如何助推青年创作者圆梦?在世界环境日,聊聊自然如何成为艺术家的创作素材?美股大涨趋势或延伸至8月?但要注意风险![电脑] Infinity Mirror——联力积木风扇幻镜120+华硕ROG吹雪全家桶装机
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。