Redian新闻
>
不会PS没关系,AI拼图技术已能以假乱真|斯坦福研究

不会PS没关系,AI拼图技术已能以假乱真|斯坦福研究

公众号新闻
Alex 发自 凹非寺
量子位 | 公众号 QbitAI

这是一份看似平平无奇的日式便当。

但你敢信,其实每一格食物都是P上去的,而且原图还是酱婶儿的:

直接抠图贴上去,效果一眼假

背后操作者并不是什么PS大佬,而是一只AI,名字很直白:拼图扩散(Collage Diffusion)

随便找几张小图拿给它,AI就能自己看懂图片内容,再把各元素非常自然地拼成一张大图——完全不存在一眼假。

其效果惊艳了不少网友。

甚至还有PS爱好者直呼道:

这简直是个天赐之物……希望很快能在Automatic1111( Stable Diffusion用户常用的网络UI,也有集成在PS中的插件版)中看到它。

为什么效果这么自然?

实际上,此AI生成的“日式便当”还有好几个生成版本——都很自然有木有。

至于为啥还有多种版本?问就是因为用户还能自定义,在总体不变得太离谱的前提下,他们可以微调各种细节。

除了“日式便当”,它还有不少出色的作品。

比如,这是拿给AI的素材,P图痕迹明显:

这是AI拼好的图,反正我愣是没看出什么P图痕迹:

话说这两年,“文字生成图像的扩散模型”着实大火了一把,DALL·E 2和Imagen都是基于此开发出来的应用。这种扩散模型的优点,是生成图片多样化、质量较高。

不过,文字终究对于目标图像,最多只能起到模糊的规范作用,所以用户通常要花大量时间调整提示(prompt),还得搭配上额外的控制组件,才可以取得不错的效果。

就拿前文展示的日式便当来说:

如果用户只输入“一个装有米饭、毛豆、生姜和寿司的便当盒”,那就既没描述哪种食物放到哪一格,也没有说明每种食物的外观。但如果非要讲清楚的话,用户恐怕得写一篇小作文了……

鉴于此,斯坦福团队决定从别的角度出发。

他们决定参考传统思路,通过拼图来生成最终图像,并由此开发出了一种新的扩散模型

有意思的是,说白了,这种模型也算是用经典技术“拼”出来的。

首先是分层:使用基于图层的图像编辑UI,将源图像分解成一个个RGBA图层(R、G、B分别代表红、绿、蓝,A代表透明度),然后将这些图层排列在画布上,并把每个图层和文字提示配对。

通过分层,可以修改图像中的各种元素。

到目前为止,分层已经是计算机图形领域中一项成熟的技术,不过此前分层信息一般是作为单张图片输出结果使用的。

而在这种新型“拼图扩散模型”中,分层信息成了后续操作的输入。

除了分层,还搭配了现有的基于扩散的图像协调技术,提升图像视觉质量。

总而言之,该算法不仅限制了对象的某些属性(如视觉特征)的变化,同时允许属性(方向、光照、透视、遮挡)发生改变。

——从而平衡了还原度和自然度之间的关系,生成“神似”且毫无违和感的图片。

操作过程也很easy,在交互编辑模式下,用户在几分钟内就能创作一幅拼贴画。

他们不仅可以自定义场景中的空间排列顺序(就是把从别处扣出来的图放到适当的位置);还能调整生成图像的各个组件。用同样的源图,可以得出不同的效果。

最右列是这个AI的输出结果

而在非交互式模式下(即用户不拼图,直接把一堆小图丢给AI),AI也能根据拿到的小图,自动拼出一张效果自然的大图。

研究团队

最后,来说说背后的研究团队,他们是斯坦福大学计算机科学系的一群师生。

论文一作,Vishnu Sarukkai现为斯坦福计算机科学系研究生,还是硕博连读的那种。

他的主要研究方向为:计算机图形学、计算机视觉和机器学习。

此外,论文的共同作者Linden Li,也是斯坦福计算机科学系研究生。

在校求学期间,他曾到英伟达实习4个月,与英伟达深度学习研究小组合作,参与训练了增加100M+参数的视觉转换器模型。

论文地址:
https://arxiv.org/abs/2303.00262
参考链接:
[1]https://twitter.com/_akhaliq/status/1631106075972755456
[2]https://www.reddit.com/r/StableDiffusion/comments/11fpf3s/collage_diffusion_creates_globally_harmonized/

3月29日「中国AIGC产业峰会」

抢票开启

「中国AIGC产业峰会」定档3月29日,线下会场抢票开启!

百度袁佛玉、智源林咏华、澜舟科技周明、小冰徐元春、科大讯飞高建清、启元世界袁泉、云舶科技梅嵩、特赞王喆、微软关玮雅、源码资本黄云刚、元语智能朱雷、无界Ai马千里、Tiamat青柑、峰瑞资本陈石等来自产学研界大咖嘉宾,还有重磅嘉宾陆续确认中。

扫描下方二维码,报名峰会线下会场啦~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
加拿大旅游就医不可不知:突然生病没关系,还可以直接和药剂师拿这13种处方签!别再学了!这些技术已经被淘汰了,少走点弯路。。。斯坦福商学院GSB院长谈经济形势对商学院的影响|哈佛斯坦福前沿观点LLM背景提升项目 |斯坦福大学法律学专题,平等法的影响力研究炊烟袅袅找距离离了大谱,电影居然照进现实,美国这所“野鸡大学”简直可以以假乱真!男子山寨苹果耳机“以假乱真”:被判6年罚款1140万元!离大谱!山寨包装以假乱真,网友纷纷跳坑:别被骗了22~23岁末年初出行记8: 蒙特雷湾水族馆验证码拦不住机器人了!谷歌AI已能精准识别模糊文字,GPT-4则装瞎求人帮忙闲说跨年在墨西哥城 (4b) - 艺术宫壁画当下短视频观感90后宝妈的“以假乱真”粘土作品,征服了几十万网友,获得疯狂怒赞!哈萨克斯坦、吉尔吉斯斯坦、塔吉克斯坦、乌兹别克斯坦总统将访华近视眼手术已经很成熟了,干嘛还要这么费力保护孩子的眼睛?澳洲人最信赖的20个品牌揭晓!Coles没上榜,第一很意外!用 AI 对抗 AI!斯坦福研究人员推出 DetectGPT,专门检测 ChatGPT 等模型生成的文本加国新型税务诈骗来了! 造假水平高邮件竟能以假乱真没时间辅导孩子作业,头疼帮孩子准备考试,家长的解题方法跟学校教得不一样?没关系,我们的作业帮俱乐部全都帮您解决!ChatGPT已能操控机器人,工程师连代码都不用写,网友:微软在搞天网?北外的知名英语教授对于AIGC,李飞飞有这些看法|斯坦福HAI观点报告入学社群 | 错过15天电影学习计划?没关系,我们重启了!母亲节特别活动|斯坦福妈妈分享会、免费儿童托管、有机草莓樱桃公益团购秒杀、餐厅8.8折~宠妈!司机们别上当!旧金山街头惊现大量假停车罚单,以假乱真,教你如何分辨真伪~以假乱真的人体雕塑,太惊艳了!黑命贵不要脸视频83.5万次观看:“去付钱我就让你走!”纽约帅气印度大叔VS没皮非裔女CS书单|斯坦福大学的学生CS课上都在学什么?鹰眼被铲雪车碾压骨折30处,2个月后已能直立"走路",恢复真快!「吵架没关系,但要吵得有意义」:和学心理的人谈恋爱,是什么体验?没有红毯也没关系,今年奥斯卡注定是亚裔的胜利既动手又动脑,学习CS没有比这样更有趣了!AI书单|斯坦福官方精选的AI必读书目,还不快点码住?《亚利桑那阳光2》初公布!索尼发布会PS VR2游戏资讯汇总德福研究院正式成立,李振福:2023是大有可为之年
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。