Redian新闻
>
一笔勾勒,宫崎骏动漫世界!斯坦福大模型𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩,草图秒变神作

一笔勾勒,宫崎骏动漫世界!斯坦福大模型𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩,草图秒变神作

公众号新闻



  新智元报道  

编辑:桃子
【新智元导读】有了𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩,不是艺术家,也成艺术家。


只需随笔一画,高清画作就来了。

比如,画一个中世纪城堡,简单画个门,画条路,一座美丽的城堡出现了。

带邮箱的霍比特人房子

海洋边缘的灯塔(PS:有点像海底星空)

来自斯坦福的研究人员提出了𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩,一个能够将草图变成画作的模型。

甚至,𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩可将生成的图像,转换成完整的草图,还能为下一步的绘画提供建议。

那么,它具体是如何工作的呢?

草图,还能再编辑


现有的草图控制图像生成方法包括ControlNet、Sketch-Guided Diffusion,以及DiffSketching。

虽然现有的草图到图像方法有着很大优势,但它们有一个关键缺陷:被训练来处理完成的草图。

然而,典型的草图工作流程是一个迭代的进行中的工作!

艺术家逐步添加或删除线条,有时在深入到更精细的细节之前构建基本结构,有时在移动到另一个区域之前专注于图像的一个区域。

因此,我们需要在草图绘制过程的阶段,实现草图到图像的功能。

在Sketch-a-Sketch中,研究人员引入了一个ControlNet模型,该模型生成以部分草图为条件的图像。

有了ControlNet,Sketch-a-Sketch可以:

1)在草图过程的各个阶段生成与草图相对应的图像

2)利用这些图像生成有助于指导艺术过程的建议草图

问题:现有方法不适用于部分草图

以前的研究是在图像和完成草图的配对数据集上训练的。

在尝试根据部分草图生成图像时,这些方法会将草图视为已完成的草图。

因此草图其余部分的空白会被视为一个指标,表明图像不应包含通常与输入草图中的笔画相对应的内容。

例如,给定房子的前几条线,ControlNet无法在绘制线的区域之外生成重要的细节:

在这些草图中,与线条相对应的特征出现在生成的图像中:支撑屋顶的柱子、栏杆的顶部、门廊的底部等。

然而,在草图仅包含空白的区域,也存在大量主要的图像特征。

训练数据:通过随机删除线条制作部分草图

Photo-Sketch 是现有的最大数据集,其中包含文本描述图像,与部分完成阶段的草图配对的数据集。

然而,该数据集存在以下不足:

1)仅限于 1000 张图片的草图;

2)所有图片均为室外场景(缺乏多样性,无法生成一般的文本条件);

3)通过对现有图片进行描摹来构建(强加了笔画顺序,可能与许多艺术家的画图过程不符)。

因此,我们以编程方式构建了自己的数据集,其中包含与部分草图配对的带描述图像。

斯坦福研究人员的方法是:1)使用HED将图像转换为光栅化边缘图;2)将边缘图矢量化为笔画集合;3)随机删除部分笔画。

通过以任意顺序删除笔画,我们还能以任意顺序绘制的笔画为条件生成图像,从而适应各种草图风格。

研究人员使用来自LAION Art的45000张图片构建了配对数据集,并对ControlNet模型进行了训练,以便在图片-草图配对上调节Stable Diffusion 1.5。

训练好的模型将文字说明和部分草图作为输入,并输出与可能完成的草图相对应的生成图像。

需要注意的是,通过对许多不同完整程度的随机部分草图进行训练,模型学会了将任何完整程度的草图转换成最终图像。

这就意味着,模型并不假定你绘制线条的顺序。

你可以按照任何顺序绘制线条,𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩仍会根据草图的当前状态生成图像。

生成你想要的图像


当艺术家不太确定他们想如何绘制图像的一部分时,可以根据绘制的线条生成各种图像完成。

比如,不太确定他们想如何绘制杯子的把手,所以𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩生成了3张图像:

有了这些生成的图像,Sketch-a-Sketch可以为潜在的绘制线条提供建议。

通过在生成的图像上运行HED,来生成现有绘图的潜在补全,然后就可以获得建议线条的图像:

风格可控


图像说明和底层扩散骨架会对图像可视化和建议线条产生重大影响。

与其他文本控制扩散应用一样,𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩可以通过提示来修改生成图像的风格或内容。

在下面的图中,可以通过更改一个单词来控制一辆跑车的可视化风格:

提示:跑车,逼真

提示:跑车,卡通

提示:跑车,阴影

提示:跑车,生锈

之前已经看到过,在一个骨干网(Stable Diffusion 1.5)上训练过的ControlNet在该骨干网的微调版本上仍然有效。

这一特性同样适用于部分草图ControlNet模型,使Sketch-a-Sketch能够从针对特定领域进行微调的模型中生成建议。

例如,我们可以使用吉卜力扩散生成吉卜力风格的角色:

作者介绍


Vishnu Sarukkai

Vishnu Sarukkai是斯坦福大学的博士生,导师是Chris Ré和Kayvon Fatahalian。他曾在斯坦福大学获得了计算机学士学位。

他的研究兴趣包括机器学习和计算机图形学,最近的研究主要集中在可控扩散模型上。

Christopher Ré

斯坦福人工智能实验室(SAIL)、基础模型研究中心(CRFM)和机器学习小组(生物)的副教授。

Kayvon Fatahalian

Kayvon Fatahalian的团队创建了支持高级计算机图形和视频理解应用程序的计算系统(通常是高性能和并行的)。最近的研究工作包括,用于「AI训练」的虚拟环境的高性能模拟。

参考资料:
https://twitter.com/VSarukkai/status/1691513593358086144 




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
最新!2024泰晤士世界大学排名!斯坦福力压哈佛,清北冲进前15!「化腐朽为神奇」:Stability AI又出新工具,草图瞬间精致,不同风格随心选突发!斯坦福大学校长陷“学术丑闻”,宣布辞职!重磅!斯坦福大学校长因学术不端被迫辞职!背后推手竟是17岁大一新生NLP七十年!斯坦福教授Manning长文梳理:十年后的基础模型能成AGI吗?第二章 文明的产生和发展 (3)重磅!斯坦福大学校长辞职,背后推手竟是18岁大一新生!斯坦福三申三录,哥大连中三元,哈耶普斯麻申四录四,斯坦福、MIT、CIT、CMU等九大理工强校理工专业大满贯,是怎么做到的?一只鼠头引起的一场娱乐成都出发1h,睡进“东方田园乌托邦”!人均¥200+体验宫崎骏漫画中的田园慢生活~鸡贼看世界之北京篇ChatGPT「看图说话」大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相久石让║宫崎骏动画《交响乐编曲集》独家限定版2LP黄胶!世界级动画学术巨著告诉你:宫崎骏有什么了不起?【父亲节活动】我曾有个家自驾1.5h,误入“宫崎骏”的夏天!这座避暑小城茶田竹海超惊艳,消暑线路还被全国推介《西部世界》真来了!斯坦福爆火“小镇”开源泰晤士高等教育世界大学排名发布!斯坦福重回全美第一!生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作ICCV2023奖项出炉!斯坦福ControlNet和多伦多大学分别获得最佳论文!Segment Anything最佳提名儿子不愿当老板,宫崎骏托付事业,日本电视台收购吉卜力42.3%股份《黑镜》照进现实!斯坦福大一学生打造AI助手,托管记忆,安排你的日常生活为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了可能是最后一次,宫崎骏新片正式公映,联手久石让回归斯坦福大学教授 Jure Leskovec:基础模型在全科医学人工智能中的应用潜力2024年泰晤士世界大学排名发布!斯坦福力压哈佛,清北冲进前15!突发!斯坦福大学校长因论文问题宣布辞职!免费领 | 全世界都热爱的宫崎骏史诗级动画23部,在孩子心中种下浪漫与纯真~82岁退休4次,宫崎骏又上新了带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频UMich面临伪造学生成绩的指控/CMU近十年中国学生数量猛增/斯坦福大学启动“生态创业”项目2024年泰晤士世界大学排名正式发布!斯坦福全美第一给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源《越来越好》&《向云端》惊呆!斯坦福大学教授让犹太学生集中角落罚站:让你们也体验下!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。