Redian新闻
>
GAN重出江湖!中国团队抢先开源“复刻版”DragGAN,AI一键实现“大象转身”

GAN重出江湖!中国团队抢先开源“复刻版”DragGAN,AI一键实现“大象转身”

科技
本地视角记录硅谷,全球视野关注创新
别忘了给我们加星标~


2023



新技术追踪


BUSINESS







李白实验室抢先开源「复刻」版DragGAN


文|硅星人  编辑| VickyXiao 



在大家沉迷于Midjourney、Stable Diffusion 技术中无法自拔时,一时被人遗忘的GAN又带着新技术重出江湖了。现在P图,你只需要“轻轻点两下”,AI就能迅速理解你的想法,秒速生成结果图。


DragGAN是由Max Planck研究所开发的一种新的人工智能工具,它允许用户通过几个点击和拖动来真实地修改照片,目前还未对外开源。但王道控股旗下的“李白实验室”算法团队抢先重现了DragGAN的效果。


目前,可直接使用的模型能够让你轻松掌控图片中的人物和动物,通过拖拽控制点和目标点来调整他们的位置、形状、姿势等等。现在已经可以在  Hugging Face 上直接使用了。

体验入口: 

https://huggingface.co/spaces/wuutiing2/DragGAN_pytorch              

几个点击,轻松生成结果图

修改微笑弧度,让一张严肃的照片变成露牙甜美笑

放大图片中小哥哥的眼睛

拍照脸型不好看,一键瘦脸,毫无PS痕迹

觉得猫咪太瘦不够可爱,可以给它拉大脸庞,增加可爱度。

发际线拯救神器,这简直就是秃头星人的救命工具

轻轻一拖,在不影响美观的情况下,可以让猫咪的耳朵缩小

让狮子向右侧方向移动,是不是和“大象转身”的操作很接近

可以随意改变模特的发型,短发变长发;本来双脚分开站立的模特,可以瞬间把腿拉至并拢

原理揭秘:基于GAN的图像编辑方法

虽然上述的效果展示很多,但是其实DragGAN也就两个技术原理:

1、基于特征的运动监督,驱动手柄点向目标位置移动;

2、一个新的点追踪方法,利用鉴别性的发生器特征,不断定位手柄点的位置。

DragGAN是一种基于GAN的图像编辑方法,可以实现运动监督和精确点跟踪。任何人都可以通过DragGAN对像素进行精确的控制,进而编辑如动物、汽车、人类、风景等多种类别的姿态、形状、表情和布局。

DragGAN还允许用户选择感兴趣的区域以执行特定于区域的编辑,而不需要依赖其他网络。李白实验室复现的“DragGAN”只需要几秒就能完成效果,你可以选择不同的迭代步数,步数越多效果越夸张,其生成时间就越慢。

此外,DragGAN的无损优化功能可以让用户输入二进制掩码,指示图像中的可移动区域,从而实现更细致的控制,避免损坏图片的原属性。

与传统PS的液化功能相比,DragGAN在编辑图片时可以更好地保持图片的原始属性,并且具有更广泛的应用范围。例如,可以使用DragGAN来改变图片中车辆的位置、大小和轮胎的形状等。这种方法可以在几次鼠标拖动的时间内完成,非常方便快捷。

聚焦图像处理:从大项目到“小”工具

此次复现了DragGAN的“李白实验室”是一个年轻的人工智能技术团队,其中主创始人唐勇博士,毕业于美国宾夕法尼亚州立大学,在美国知名500强企业担任技术学科专家,高级工程师等。其他成员均毕业于国内外知名高校,清华、北大、浙大、英国皇家理工和美国常青藤范围等。

在开启创业之路之前,唐勇曾在美国的知名研究机构以及世界五百强企业工作。他主导并参与了众多社会、环境和能源的相关项目,这些项目的合作伙伴包括美国环保署,美国国家海洋和大气管理局以及全球顶尖能源公司。他专注于运用数学物理模型、高性能计算、多目标优化以及人工智能技术,解答现实世界中大尺度、多模态、多变量的复杂难题,这其中包括洪水预报、气候变化、能源管道设备优化设计以及系统安全等一系列棘手问题。

然而,现实世界的问题千丝万缕,影响因子五花八门,充满了无法预料的不确定性,完全理解其数学物理机理似乎是一项几乎无法完成的挑战。因此,在找到合伙人并得到杭州王道创投基金的支持后,唐勇还是成立了名为“李白”的人工智能实验室,投入大量精力研发计算机视觉、语音以及自然语言处理等前沿技术,希望通过人工智能技术提升模型的泛化能力,从而更有效地解决现实世界的复杂问题。

郭铭涛作为主创人员,也和在团队一起攻坚克难后,终于复现了DragGAN。郭铭涛来自四川大学图像所,目前在读博士一年级,主要研究方向就是深度生成模型,此前他还获得了CVPR 2023 工业图像缺陷生成竞赛冠军。

“李白实验室”在智能图像生成方面已经有不少积累。他们基于GAN技术实现了图像分割、图像修复增强、视频处理等实用性功能,其中图像背景分割算法模型在全球图像分割alphamatting.com的模型评比中斩获全球第一,获得国内外近30项学术和研究成果专利,80%为发明专利。

他们还在2019年创办了“PicUP.Ai皮卡智能”项目,海外同步上线“cutout.pro”项目,海外月活超千万用户,海外站更是跻身图像编辑工具分类排名前十。

2023年在AIGC爆火期间,他们还推出“神采PromeAI”的项目。该项目通过算法优化升级,可直接应用于建筑、室内、产品、游戏/动漫场景设计中,不需要复杂的关键词及参数设置,就可一键生成效果图、线稿、电商产品图等,实现把AIGC从玩具到工具的实用性转变。

李白实验室告诉硅星人,自创立之初,他们便投入大量精力研发计算机视觉、语音以及自然语言处理等前沿技术。目前技术还在设计、营销、生命科学等多个领域进行了商业落地,在实际生活中也得到了广泛应用。

他们此次开源“复刻版”DragGAN,也是为了能让每一个普通用户都能简单使用这些工具,努力把AI技术革新的成功带到普通用户身边

若将DragGAN与图像生成工具结合使用,下一代内容革新技术产品或许即将诞生,用户将能够更接近他们心目中理想图像的输入。

也许不久之后,谁都可以轻松完成甲方提出“让大象转个身”的需求了。

*参考资料:

注:封面图来自于Pexels,版权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。

END




喜欢这篇文章?



1)点击右下角的“在看”
2)分享到你的朋友圈和微信群
3)赶快关注硅星人吧!
关注硅星人,带你用本地视角看硅谷,全球视野看创新





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
你的DragGAN并不需要点跟踪!中科大和上海AI Lab提出FreeDrag:无需点跟踪即可稳定拖动语义内容AI “复刻”现实女友爆火!国外小哥开源 GirlfriendGPT停印多年,终于重出江湖!动画制作效率提升80%!这个AI软件一键实现高精度视频动捕中国买房团重出江湖!大批买家涌入,日均狂砸$840万,直接吓晕民众!无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容漫游大华府(10)华盛顿故居59岁重出江湖,马云背后的男人藏不住了爆火DragGAN正式开源,GitHub近18k星!清华校友带GAN逆袭,大象一秒P转身“不讲武德”马保国,重出江湖大象P转身开箱即用!港大、南大、清华等抢先开源「复刻」版DragGAN【抢房】中国买房团重出江湖!日均狂砸$840万!61岁董文华重出江湖,揭开当年被“封杀”真相,太意外!试物说vol.691| 回忆杀!娃娃脸蛋糕重出江湖了财富自由的「7天」创始人为什么重出江湖?|36氪专访让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop修行从否定自己开始「拖拽」就能实现精准P图的DragGAN,论文作者亲自揭秘技术了中国买房团重出江湖!大批买家涌入,日均狂砸$840万,直接吓晕民众…真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集张一鸣重出江湖!成立个人投资基金 主投科技有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火突发!澳议员“点名”中国人,要求出台法律禁止外国人买房!中国“炒房团”重出江湖,已盯上澳洲?日均狂砸$1000万!中国团队推出脑电图图像生成模型DreamDiffusion中国“炒房团”重出江湖!每日狂砸$840w买房!参议员急了!把大象P转身,如此变态的甲方要求,终于让AI 实现了~!《美的让人醉》&《我把吉祥送给你》日本咖啡大师推荐,一键实现手冲自由中国买房团重出江湖!日均狂砸840万,大批买家涌入!禁套套(TT,Tiktok)算个啥?被禁的APP大把在路上零首付、负首付买房重出江湖,背后有哪些套路?重出江湖!中国买房团日均狂砸840万买房!大批买家涌入,参议员急了!PUA重出江湖?加拿大渣男劈腿成瘾,各种骗妹妹,还是已婚人士!DragGAN开源三天Star量23k,这又来一个DragDiffusion花木兰 杜甫与卖炭翁 茅屋塌了(写于富士康抓壮丁期间)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。