无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸

2022-07-22 04:07

（本文阅读时间：6分钟）

编者按：此前，微软亚洲研究院提出了多模态模型 NUWA，它可以基于给定的文本、视觉或多模态输入生成图像或视频，并支持多种视觉艺术作品创建任务，包括文本到图像或视频的生成、图像补全、视频预测等。近日，微软亚洲研究院公开发表了新的研究成果：NUWA 的升级版——无限视觉生成模型 NUWA-Infinity，让视觉艺术创作趋于“无限流”，可生成任意大小的高分辨率图像或长时间视频。一起来感受一下 AI 的无限创作力吧！

或许你也曾有过这样的想法——那些“世界名画”画框外的景色是怎样的？

让 NUWA-Infinity 带我们去“一探究竟”！

发现梵高《星空》画框外更广阔的风景：

“窥探”《清明上河图》5.287米画卷外百姓们的千姿百态：

《清明上河图》

NUWA-Infinity 基于《清明上河图》学习后，重新创作生成画作（分辨率：38912x2048）的一部分

NUWA-Infinity 还可以将静态的图像转化成超高清视频，为其带来“活力”。

原始静态图像

NUWA-Infinity 基于静态图像生成的视频

除此之外，NUWA-Infinity 也可以依据文本生成超高清图片，为艺术创作带来更加丰富的想象力。

是不是意犹未尽，还想探索更多？欢迎大家点击阅读原文，前往 NUWA-Infinity 演示页面，直观感受 NUWA-Infinity 的无限创作能力。

为什么微软亚洲研究院会开发 NUWA-Infinity，背后又用到了哪些新技术？

随着以消费为基础的注意力经济逐渐转为以生产为基础的创意经济，越来越多的人已经成为日常创作者，通过利用各种图片、视频编辑工具，实现艺术作品的创新或再创作。然而，高质量的视觉艺术创作从来都不是一件容易的事，往往需要专业的技能和设备，并花费大量的时间。与此同时，日常的视觉艺术创作对更高分辨率的图像或持续时间更长的视频也有着越来越高的需求。

为此，微软亚洲亚洲研究院 NUWA 团队研发出了无限视觉生成模型 NUWA-Infinity。与同样覆盖图像和视频创作的 NUWA 相比，NUWA-Infinity 在分辨率和可变大小视觉艺术作品生成方面具有更优的性能，并支持五个高分辨率视觉任务的生成，包括无条件图像生成高分辨率图、文本生成高分辨率图像、文本生成高分辨率视频、图像生成高分辨率动画和图像生成高分辨率图像。

在 NUWA-Infinity 模型中，研究员们提出了一种全局自回归嵌套局部自回归的生成机制，通过全局自回归建模视觉块之间的依赖关系和局部自回归建模视觉词之间的依赖关系，让 NUWA-Infinity 能够生成全局一致且局部细节丰富的高质量图像和视频，并提出任意方向控制器（Arbitrary Direction Controller, ADC）来决定合适的生成顺序并学习顺序感知的位置嵌入。相比其他多模态生成模型，NUWA-Infinity 可以从给定的文本、图像或视频生成与之相关的任意形状、任意大小的超高分别率图像，以适配不同设备、平台和场景；更重要的是，NUWA-Infinity 还支持长时间视频的生成，比如图像动画的制作。

此外，NUWA-Infinity 模型还引入了附近上下文池（Nearby Context Pool, NCP）来缓存已经生成的局部图像，作为正在生成的当前图像的上下文，这可以在不牺牲视觉块间依赖性的前提下，显著节省计算成本。NUWA-Infinity 极大地弥补了市场上现有技术仅支持生成大小有限的视觉内容以及视觉内容创作计算成本高昂的不足。

下一步，NUWA 团队将持续推动 NUWA 的演进，并希望研发出能从三个方面为专业和日常艺术创作者赋能的技术：

构思：通过自动快速和多样化的设计生成能力，降低构思门槛，在构思阶段为艺术创作者提供更多信息和灵感。
美学：降低创意门槛，支持普通用户以适当的美学/设计质量来创作创意作品（NUWA 模型学习了大量高质量/高美学标准的图片）。
效率：通过将 NUWA 的能力集合到一套智能工具中，来提高创作效率，降低创作工作量。

未来，由 AI 生成的高分辨率视觉内容将会更加符合图像设计、广告、动画、游戏等行业的视觉内容创作需求，为创作者提供源源不断的创造灵感。欢迎更多的科研人员、开发者与微软亚洲研究院共同探索AI视觉创作领域的广阔未来。

NUWA 是在科研层面开展的，对视觉艺术作品自动生成技术的前沿探索，旨在探索为视觉艺术创作者提供更智能的工具，支持他们更好地发挥自己的创意。微软始终致力于打击虚假信息，并尽其所能提供最新技术来检测被人为操纵的内容，帮助人们识别“深度伪造”（deepfake）的信息（欲了解微软为打击虚假信息所做的努力，请访问：https://blogs.microsoft.com/on-the-issues/2020/09/01/disinformation-deepfakes-newsguard-video-authenticator/）。同时，微软的技术进步都接受微软负责任的 AI 流程的指导，并遵循公平、包容、可靠性与安全性、透明、隐私与保障、负责的原则。

论文链接：

NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis

https://arxiv.org/abs/2207.09814

演示页面：

https://nuwa-infinity.microsoft.com/

NUWA-Infinity项目页面：

https://www.microsoft.com/en-us/research/project/nuwa-infinity/