国际科技财经博客移民网络热点娱乐民生时事公众号

>

大象P转身开箱即用！港大、南大、清华等抢先开源「复刻」版DragGAN

大象P转身开箱即用！港大、南大、清华等抢先开源「复刻」版DragGAN

公众号新闻

2023-05-25 11:05

新智元报道

编辑：编辑部

【新智元导读】DragGAN非官方实现来了！完美复刻拖拽秒P图功能，可以直接上手尝试。

还记得前几天发布的DragGAN吗？

没错，就是那个「轻轻点两下」1秒修图的工具。

拍的照片表情不好？修！脸型不够瘦？修！脸冲镜头的角度不对？修！

搞不好，「让大象转个身」这个远古PS段子，可能就要成真了

这个AI修图工具演示视频一经发布，瞬间在国内外火得一塌糊涂。

许多网友纷纷直呼，「PS不存在了」。

还没几天，DragGAN非官方实现竟能上手试用了。这一功能已经被集成到InternGPT中，界面长这样↓

体验地址：https://igpt.opengvlab.com/

没想到，演示入口一开放，直接被挤爆。

官方演示

从官方放出的演示视频来看，再现的DragGAN效果绝了。

咧嘴笑

先是怎么把一个没笑的人p笑。只要选中两个嘴角，直接Drag就好了。

可以看到，最终生成的结果毫无违和感。因为面部肌肉也在一起变化，不是单纯的咧嘴。

合上嘴

脸部编辑

这个瘦脸功能大家就太熟悉了，选中两个脸蛋往里挤，输出还是非常自然的。

男性瘦脸。不过这个有点瘦过了，输出结果一眼假，下巴太尖了。

这个必须强推！植发！多少秃头人士的福音。

不过从输出结果看，就算选中额头那里，也是全部地方的毛发等比例增长，最后的结果有点像美猴王。

转脸

脸部转动也是一个很实用的功能，补齐的部分非常自然。

其它功能

除了小范围的修图，InternGPT本身还有很多其它可以进行的亮眼操作。

移除遮盖的对象

单击想要在图片中进行操作的部分，在prompt中输入「移除」就可以了。

图像生成

这个功能比较有意思，先上传一张图片，输入prompt让DragGAN分割，然后再输入一个prompt生成想要的图片。

露出黑脚了？（不是）

视频高光解说

用prompt还可以一键剪辑视频。

交互式视觉问答

甚至识别完图片上的信息还能联网直接查询。

交互式图像生成

随手的涂鸦都能一键变成美图。

反正看完这些功能小编是真震惊了。所有功能就突出两个特点：「傻瓜式操作，且究极好用」。

这谁能不爱？

技术实现

看了这么多酷炫的功能，那么这个InternGPT到底是什么？

InternGPT（简称iGPT）/InternChat（简称iChat）是一种基于指向语言驱动的视觉交互系统，用户可以通过点击、拖动和绘制与ChatGPT进行互动。

与依赖纯语言的现有交互系统不同，通过整合指向指令，iGPT显著提高了用户与聊天机器人之间的沟通效率，以及聊天机器人在视觉为中心任务中的准确性，尤其在复杂的视觉场景中更是如此。

论文地址：https://arxiv.org/pdf/2305.05662.pdf

下图就是InternGPT的整体架构。

我们可以看到，这个GPT既可以处理图像、视频，也可以处理语音、文字。

对于图像或视频输入，InternGPT就会用SAM（图像分割模型）、OCR（图像识别模型）等等进行处理。

在识别出地理位置、物品或者线条之后，还有一整个工具箱进行进一步处理，其中都是我们耳熟能详的工具。

比如BLIP（音频）、Stable Diffusion（图像）、Pix2Pix（图像翻译）等等。

同样地，对于文字或者语音输入，InternGPT就会调用GPT-4、LLaMA等模型或工具进行处理，后续同样有一整个工具箱。

InternGPT的整体架构

使用提示

而在使用过程中，整个流程也是非常方便的。

用户在图片上传成功后，可以发送如下消息与iGPT进行多模态相关的对话：

"what is it in the image?" or "what is the background color of image?".

同样，用户也可以交互式地操作、编辑或者生成图片，具体如下：

· 点击图片上的任意位置，然后按下 Pick 按钮，预览分割区域。也可以按下 OCR 按钮，识别具体位置处存在的所有单词；

· 要在图像中删除掩码区域，可以发送如下消息：

“remove the masked region”

· 要在图像中替换掩码的物体为其他物体，可以发送如下消息：

“replace the masked region with {your prompt}”

· 想生成新图像，可以发送如下消息：

“generate a new image based on its segmentation describing {your prompt}”

· 想通过涂鸦创建新图像，按下 Whiteboard 并在白板上绘制。绘制完成后，需要按下保存按钮并发送如下消息：

“generate a new image based on this scribble describing {your prompt}”

网友评论

那个令人震惊的DragGAN现在有一个非官方的版本。正式版本将在6月发布，这只是未来的预览。

DragGAN已经集成到InternGPT了，这么快就出来了，修图神器。

参考资料：

https://igpt.opengvlab.com/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

跑分达ChatGPT的99%，人类难以分辨！开源「原驼」爆火，iPhone都能微调大模型了 Npj Comput. Mater.: 中大、清华、加大尔湾分校合作发现新型二维磁性材料国产AI算力加持！昇思大模型平台震撼升级，轻松上手，开箱即用开箱即用，5个令人惊艳的AI项目，开源了！超级提前批 | 谷歌抢先开启秋招！「AI孙燕姿」全网沸腾！AI翻唱大爆发，整个华语乐坛都「复兴」了｜GGView 让GAN再次伟大！拽一拽关键点就能让狮子张嘴&大象转身，汤晓鸥弟子的DragGAN爆火，网友：R.I.P. Photoshop 憨老头吐槽开篇 SIGGRAPH 2023论文奖公布，山大、港大获奖，北大、腾讯光子获提名 GAN逆袭归来！清华校友论文引爆AI绘图圈，一秒把大象P转身，Diffusion黯然失色北美7-Eleven推出「7Charge」DC快充站加州等抢先设置李玟并非死于割腕，遗体将解剖！9亿遗产有归属！老公现身开口就是“挚爱”马克谈天下(371) 我看TIKTOK在美国的可能命运扎克伯格「复刻」推特，重击马斯克北大、清华，恢复预约参观！24小时内、200美元复制RLHF过程，斯坦福开源「羊驼农场」模拟器喜报！新国立、南洋理工、港大、KCL、港城市…｜背景提升学员更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」阿里组织变动：大象不好转身，就把自己拆成狼群 AI「复刻」现实女友爆火！国外小哥开源GirlfriendGPT，GitHub已获1.3k星爆火DragGAN正式开源，GitHub近18k星！清华校友带GAN逆袭，大象一秒P转身 GAN重出江湖！中国团队抢先开源“复刻版”DragGAN，AI一键实现“大象转身”DragGAN开源三天Star量23k，这又来一个DragDiffusion SIGGRAPH 2023最佳论文公布！山大、港大获奖！北大、腾讯光子获提名真·从零复刻ChatGPT！斯坦福等开启「红睡衣」计划，先开源1.2万亿token训练集把大象P转身，如此变态的甲方要求，终于让AI 实现了~！丘陵地带的一座乡村小城镇《西線無戰事》拍出戰火浮生錄有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火租房 | 必收藏！港大、中大、科大、理大附近房源大合集！全球首发，国产开源「文本-视频生成」模型！免费在线体验，一键实现视频生成自由北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像腾讯开源的Markdown编辑器，开箱即用、轻量简洁、易扩展

热点事件追踪