Redian新闻
>
47年前经典影片另类重制,从宇宙到原子皆是生成

47年前经典影片另类重制,从宇宙到原子皆是生成

公众号新闻
机器之心报道
作者:大盘鸡
从广角视图到微距拍摄,每一步由你来决定。

以躺在草坪上的男人为中心,将镜头画面按照 10 倍的比例不断扩展,你将看到一亿光年外的场景。



以躺在草坪上的男人为中心,每次画面镜头缩减 90%,单个质子将充满整个镜头。



让人震惊的是,这两组画面来自 1977 年的经典短片《Powers of Ten》。在评论区中,有人表示这个视频在 2022 年依然被当做经典出现在课堂中。



有网友对于这个视频的制作表示无法想象。从银河系外层直达细胞内部,这样的跨度让人更加直观地感受到了宇宙中存在的巨大尺度。



原视频观看地址:https://www.bilibili.com/video/BV1Rx411y7i9/?vd_source=339fb2e79b91dc2f5d8eb2025c2d4c90


不过在当时,制作类似的动画或互动体验需要训练有素的艺术家,并且他们要花费大量的繁琐劳动。技术进步,尽管人们希望用生成模型来取代这一过程,但现有的方法尚未证明有能力在多个缩放级别生成一致的内容。不过,文本到图像模型的最新进展带来了变革性的应用,或许这能够给我们一些新的启发。


来自华盛顿大学与谷歌等机构的研究者提出了一种方法:利用文本到图像模型在多个图像尺度上生成一致的内容,从而实现场景的极端语义缩放,例如从森林的广角视图到坐在树枝上的昆虫的微距拍摄。他们通过一种联合多尺度扩散采样方法实现了这一目标,这种方法既能保持不同尺度之间的一致性,又能保持每个单独采样过程的完整性。




  • 论文链接:https://arxiv.org/pdf/2312.02149.pdf

  • 项目页面 https://powers-of-10.github.io/


由于每个生成的尺度都由不同的文本提示引导,因此与传统的超分辨率方法相比,该方法可以实现更深层次的缩放,而传统的超分辨率方法可能难以在截然不同的尺度上创建新的上下文结构。本文还将其方法与其他图像超分辨率和扩图技术进行了定性比较,结果表明本文提出的方法在生成一致的多尺度内容方面最为有效。


方法概览


传统的超分辨率方法是以原始图像的像素为条件生成更高分辨率的内容,与此不同的是,极端缩放会暴露出全新的结构,例如,放大一只手以显示其下面的皮肤细胞。生成这样的缩放需要人体解剖学的语义知识。在本文中,研究者专注于解决这一语义缩放问题,即实现文本条件下的多尺度图像生成,以创建类似于《Powers of Ten》的缩放视频。


本文方法需要一系列描述场景不同尺度的文本提示作为输入,并生成一个多尺度图像表示作为输出,该图像表示可以进行交互式探索或渲染为无缝缩放视频。这些文本提示可以由用户定义,允许对不同缩放级别的内容进行创造性控制,也可以在大型语言模型的帮助下制作。




本文方法的核心是一种联合采样算法,它使用一组分布在不同缩放级别的并行扩散采样过程。这些采样过程通过迭代频带整合过程协调一致,在此过程中,中间图像预测会在不同尺度之间进行一致的合并。与通过反复提高有效图像分辨率来实现类似目标的现有方法不同,本文的采样过程一次性对所有尺度的内容进行联合优化,从而实现每个尺度上的合理图像和跨尺度的一致内容。


此外,现有方法在探索大尺度范围的能力方面受到限制,因为它们主要依赖输入图像内容来确定后续缩放级别的新增细节。在很多情况下,图像片段包含的上下文信息不足以为更深的缩放级别细节提供信息。与此不同,本文方法在文本提示中为每个缩放比例提供依据,允许在极端缩放级别上构思新的结构和内容。在实验中,研究者将他们的方法与其他方法进行比较,并证明了该方法生成的缩放视频明显更加一致。


本文的缩放堆栈表示法用 L= (L_0, ..., L_N-1) 表示,其设计目的是允许在任意缩放级别 p_0,...,p_N-1 下渲染图像。如图 3 所示,该表示法包含 N 个形状为 H × W 的图像,每个缩放级别对应一个图像,其中第 i 个图像 L_i 保存了与第 i 个缩放级别 p_i 相对应的像素。



本文完整的多尺度联合采样过程如下图所示。




图 4 展示了一个采样步骤,每个缩放级别中的噪声图像 z_i,t 与相应的提示 y_i 并行输入预训练的扩散模型,以预测噪声,从而计算出估计的干净图像 利用多分辨率混合技术,干净图像被合并成一个缩放堆栈,然后在所有缩放级别上进行渲染,生成一致的图像 然后,这些图像将与输入 z_t 一起用于 DDPM 更新步骤,以计算下一个 z_t-1。



图 5 展示了多分辨率融合过程的概要,该过程使用拉普拉斯金字塔(Laplacian pyramids)选择性地融合每个观测级别的适当频带,从而防止混叠和过度模糊。



实验


图 6、图 7、图 8、图 9 和图 10 展示了本文方法成功生成了一致的高质量变焦序列,适用于任意相对变焦系数和各种场景。




图 8 比较了使用本文方法和非本文方法生成的缩放序列,即每个尺度独立采样。




研究者还将本文方法与两种自动生成缩放序列的方法进行比较:Stable Diffusion 的扩图模型和 Stable Diffusion 的 「upscale」超分辨率模型。图 9 展示了具有代表性的定性结果。



与渐进式扩图相比。扩图基线从生成放大到最大的图像开始,通过对之前生成的图像进行低采样并对周围区域进行扩图,逐步生成更粗的比例。与本文方法一样,每一层的修复都以相应的文本提示为条件。图 9 显示,由于自回归过程的因果关系,扩图方法的误差会逐渐累积,也就是说,当某一步出现错误时,后面的扩图迭代可能难以生成一致的图像。


与渐进式超分辨率相比。超分辨率基线从放大程度最高的图像开始,根据相应的文字提示,通过对放大的中心图像区域进行超分辨率处理来生成后续比例。低分辨率输入提供了强大的结构信息,制约着下一张放大图像的布局。从图 9 可以看到,这种超分辨率基线无法合成只出现在更精细的放大比例中的新对象。


图 10 展示了本文方法与更简单版本的定性比较,以检验设计决策的效果。



更多技术细节,请阅读原文。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
[日签] ​​​​​​鸡蛋从外面打破是食物,从里面打破是生命。蓝领白领皆是螺丝钉,稍有不慎便滑至主流之外 | 一周荐书“性”是生活也是工作,从业者高达19000人,蒙古国为何沦为韩国男人的天堂?财政部部长蓝佛安就当前经济财政形势答问明星送“拼多多同款手机支架”被嘲寒酸?看到原价笑不出来了BORN TO SHINE | 国家地理“百年魅力·天生出彩”经典影像大展杭州站开幕!505Games母公司裁员30%!称玩家只玩续集和重制!财政部部长重磅发声!事关当前经济财政形势直播预告 | 从元宇宙到AI,人类还需要多少次角色转换?当前经济形势需要共识关于当前经济财政形势,财政部部长蓝佛安重磅发声!莫大、马林斯基两大俄国院团古典影像周五连映,Uliana Lopatkina与Z娃各美其美台湾“蓝白”合谈成了,开创台湾新纪元!咀外文嚼汉字(293)药草; 香草;“巴吉尔”,“罗勒”505Games母公司裁员30%!称玩家只爱玩续集和重制!自从学会允许,余生皆是坦然红色日记 再添女孩 11.1-30视觉盛宴!墨尔本「最大屏最好看」IMAX电影节来啦!指环王,黑暗骑士,阿凡达重回大荧幕!超多经典影片爽看一整天!令地主最头疼的不是房客悲剧!疑因被谷歌裁员,中国工程师夫妻在美身亡,皆是清华学霸,夫杀妻再自尽6049 血壮山河 卢沟桥之变 18家贼难防!澳洲Coles华人区门店前经理连犯19项盗窃罪!累计7.7万澳元!任泽平:当前经济、地产形势与破局期末批卷子批到原地崩溃…看完我笑不活了…11月网剧备案:武侠很热!《金庸武侠世界》经典重制、《鹊刀门传奇二》通过备案JACI | 靶向作用特殊炎性蛋白或有望治疗人类重症哮喘我们不是生活在和平时代,而是生活在一个和平国家目光所及,皆是好运编码数据集生成框架 UnitGen 0.4.0:代码文档生成、测试代码生成聊一聊:哪个老游戏重制了,你一定会玩?贝莱德收购GIP加注另类投资 | 另类投资世界第5期华男麻烦大了!绿卡恐不保!只因多年前经营非法按摩店被捕!如今再入境面临遣返!聚焦元宇宙及AI发展,承上启下 智元宇宙-2024元宇宙与人工智能应用场景闭门会(深圳)成功举办!因猥亵16名男孩,南加州一名“男保姆”获刑707年,甚至还给一名受害者展示儿童色情影片!邓紫棋前经纪公司:禁止翻唱!涉及《泡沫》《睡公主》《多远都要在一起》等
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。