Redian新闻
>
「图像编辑」太卷了!谷歌最新论文发布仅6小时就被自己砸了场子

「图像编辑」太卷了!谷歌最新论文发布仅6小时就被自己砸了场子

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】谷歌的生产力太猛了...
文本引导的图像生成模型火了,同时带火的还有用文本提示对图像进行修改的模型。

比如已经有了一张照片或者是生成的图片,想要给图片中的猫加个帽子,或者给人物换个姿势、图像换个风格,用文字命令的形式输入到模型中,这个过程就叫基于文本的图像编辑(Text-Based Image Editing)


本文将为大家介绍两个时下最新的「图像编辑」工具。

第一个是浏览器中在线就能用Runway,其内置在AI Magic Tools下的「Erase and Replace」功能也是刚刚上线。

网站地址:https://runwayml.com/

第二个则是Google Research最近联合魏茨曼科学研究所发布的新模型Imagic,首次实现了应用于单一真实图像复杂的(非刚性的)语义编辑能力。

论文地址:https://arxiv.org/pdf/2210.09276.pdf

相比以往的方法限于特定的编辑类型(如物体叠加、风格转移)、仅适用于合成图像、或者需要一个物体的多张输入图像,Imagic可以改变图像中一个或多个物体的姿势和构成,同时保留其原始特征,比如让一只站立的狗坐下、跳起来,让鸟张开翅膀等等。


Stable Diffusion提供的重渲染功能每次编辑都会改变图像中其他的重要元素,所以老手们不得不再使用Photoshop修复丢失元素,而Imagic的处理结果更好(显然不利于Photoshop的推广)

顺带一提,就在Imagic发布的6个小时后,就被自家兄弟砸了场子。

左为Imagic,右为UniTune

Google Research的第二篇论文中提出的模型UniTune同样是在单张图像通过文本对图像进行编辑。

论文地址:https://arxiv.org/pdf/2210.09477.pdf

UniTune方法的核心是,通过正确的参数选择,可以在单个图像上对大型文本到图像的扩散模型(文中使用Imagen)进行微调,促使模型保持对输入图像的保真度,同时允许用户进行转换操作。


开箱即用的Runway


Runway中的「Erase and Replace」功能专门处理静止图像,尽管 官方在文本到视频编辑解决方案中预览了类似的功能,但该解决方案还没有正式上线。


虽然Runway没有公布该功能背后的技术细节,不过从渲染速度来看,引擎肯定用的是扩散模型,比如Stable Diffusion(或者,不太可能是获得许可的DALL-E 2)
Runway系统也有一些类似DALL-E 2的限制,输入的图片或文本触发过滤器机制将会收到一个警告,在发生进一步违规时可能暂停帐户,基本上和OpenAI对DALL-E 2的现行政策一样。

Runway ML是Stable Diffusion的投资方和研究合作伙伴,内部使用的可能是训练过专用模型,其性能优于当前开源的1.4版本,因为就Runway的修改结果来看,编辑后的图像不存在Stable Diffusion中常见的粗糙边缘。

和Imagic一样,Erase and Replace功能是「面向物体的」,用户无法擦除图片中的「empty」部分,然后用文本提示的结果来修改空白部分。如果强行这样做,系统会简单地沿着蒙版的视线追踪最近的明显物体(比如墙或电视) ,然后在找到的物体上应用目标转换效果。


Runway目前是否针对受版权保护的图像在后端渲染引擎中进行优化仍然没有定论,不过从唐老鸭的图画和一些少儿不宜的壁画来看,目前后端检查不是特别严格。


想实现这个功能也可以复杂一点,首先把图像输入到基于某些派生版本的CLIP模型,通过物体识别和语义分割将整张图像分割多个离散的部分,但这些操作产生的结果肯定不如Stable Diffusion的效果好。

Imagic


Imagic主要解决的问题就是物体识别模糊,论文中提供了大量的编辑实例,可以在不影响图像其余部分的同时,成功修改图像。


Imagic模型采用了三阶段的架构。


1. 优化文本嵌入

获取目标文本的词向量后,固定扩散生成模型的参数,将目标词向量通过降噪扩散模型目标进行优化,使得文本向量和输入图像的嵌入之间尽可能接近。


重复几个step之后,获得优化后的文本嵌入,使得后续在嵌入空间中的线性插值有意义。

2. 微调扩散模型以更好地匹配给定图像

当把优化嵌入输入到生成扩散的过程中后,并不能精确地导向输入图像,所以还需要再次优化模型的参数。


3. 生成修改后的图像

因为生成扩散模型的训练就是完全对输入图像进行重新创建,而优化后的向量已经是目标图像了,所以想实现编辑操作,只需要在「目标嵌入」和「优化嵌入」之间插值即可。

整个框架和Google之前发布的Imagen类似,研究人员表示,该系统的设计原则广泛适用于潜扩散模型(latent diffusion models)。

Imagen 使用三层架构,包括一个以64x64px 分辨率运行的生成扩散模型;一个超分辨率模型,将输出提升到256x256px;以及一个额外的超分辨率模型,将输出一直提升到1024 × 1024分辨率。


Imagic在训练过程的最初阶段进行干预,用Adam优化器以0.0001的静态学习速率在64px阶段对输入文本的词嵌入进行优化。


然后在Imagen的基础模型上进行微调,对每个输入图像执行1500步修正嵌入空间。

同时,在条件图像上并行优化从64px到256px的第二层,研究人员指出,对最后的256px到1024px图层进行类似的优化对最终的结果「几乎没有影响」,因此在实验中没有增加。

最后,在双TPUv4芯片上对每个图像的优化过程大约需要8分钟。

与谷歌的DreamBooth类似的微调过程一样,由此产生的嵌入可以额外用于强化样式化,以及包含从支持 Imagen 的更广泛的底层数据库中提取信息对相片进行编辑。


研究人员将Imagic与之前的模型进行了比较,包括2021年斯坦福大学和卡内基梅隆大学合作的基于GAN的方法 SDEdit,和2022年4月魏茨曼科学研究所和 NVIDIA 合作的 Text2Live。


很明显,Imagic完胜,尤其是第三个,人物的姿势发生较大的转变,从放松下垂变成抱住胳膊,SDEdit和Text2Live基本没什么反应。

就目前而言,Imagic是一个更适合做成API的产品,不过Google Research对这种可能用于伪造的技术通常很谨慎,不会轻易开源。


参考资料:
https://www.unite.ai/ai-assisted-object-editing-with-googles-imagic-and-runways-erase-and-replace/



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“摆烂”当选牛津年度词汇!英国多大学宣布仅录取国际生!查尔斯再次被当街扔鸡蛋!太卷了!宇宙的尽头已经下沉到地摊,中国大妈都沉默了不得不说,我的老美邻居,在这件事情上也“太卷了”!妹子因习惯张嘴睡觉,竟被狗子拉了一嘴屎…当时就被担架抬走了!出游, 击碎一个孩子的美梦大招又上新,太卷了!Vegas酒店评分第一居然不是Ballegio/Wynn?太卷了像编辑文本一样编辑语音,可能吗?为什么名校论文发表率更高?研究人员刷了160万篇论文数据发现:只是因为劳动力多龙卷风健康快递 205什么?英国大学申请GRE变强制要求?太卷了.....太卷了!时代广场新开超格调川菜!美过米其林、鲜过麻六记!最新拉斯维加斯酒店排名,第一居然是它!也太卷了吧...太卷了!维州儿童11岁就能合法打工!有孩子竟然年入已百万太卷了,从娃娃抓起?!提升英语语言能力,需要把握好这些关键要素!Descript:OpenAI投资,像编辑文档一样编辑音视频太卷了!录取率低至9%?!加州大学各分校2022fall录取数据一览太卷了,PPT里的按钮都这么好看,最后一款简直了!Nature等两篇论文发布突破性成果:癌细胞暴露在高黏度环境中移动得更好,转移潜能增加早盘的国债殖利率飙升到3.062PIEZO1 2022:约1/3论文发展9+SCI期刊;诺奖加持,研究正扩展至临床各个领域。这13篇论文将点亮你的课题思路!麻辣涮肚、 炭香烤大串、爆炒活牛蛙…罗兰岗的烤串也太卷了!太卷了!无印良品首家「十元店」开张,名创优品慌了吗?颠覆三观!谷歌最新研究:用性能差的模型计算「相似度」反而更准?如何教孩子学会「有逻辑」的写应用说明文?TEAS | 最新拉斯维加斯酒店排名,第一居然是Ta ?? 也太卷了吧死磕操作系统!谷歌重磅发布开源KataOS,网友:「谷歌坟场」喜+1论文发表越来越难,作者的锅还是编辑的锅?陶哲轩:张益唐新论文存在一些技术问题,我已请他澄清四川地震遇难人数升至74,数百人失联!最新现场画面曝光,震中村镇失联成“孤岛”,村民度过艰难24小时!救援队跋涉6小时抵达...谷歌最新发布两大视频生成工作:720p高清+长镜头,网友:对短视频行业冲击太大...独立完整工业体系完成文革期间吃什麽(完)没那么邪乎吧?市卫生局:纽约每16小时就有1人自杀。不想再搬家 8大道华男选择自杀!每16小时就有1人自杀
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。