Redian新闻
>
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

科技

作者|李梅、王玥

编辑|陈彩娴

文本生成图像模型界又出新手笔!

这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的DALL·E 2更强!

话不多说,我们来欣赏这位AI画师的杰作~

A brain riding a rocketship heading towards the moon.(一颗大脑乘着火箭飞向月球。)

A dragon fruit wearing karate belt in the snow.(在雪地里戴着空手道腰带的火龙果)

A  marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只带着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前。)

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陈列莫奈画作的美术馆被水淹没。机器人正在使用桨板在美术馆里划行。)

A giant cobra snake on a farm.The snake is made out of corn(农场里有一条巨大的玉米构成的眼镜蛇。)

Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奥运会400米蝶泳项目中游泳。)

以及更多......

给出同样的文本提示,Imagen还可以生成不同类别的图像。比如下面这些图中,各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。



1

Imagen的工作原理

论文地址:https://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可视化流程

Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力。

在用户输入文本要求后,如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”,Imagen先是使用一个大的冻结(frozen)T5-XXL 编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到64×64的图像中。

Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256,再从256×256升到1024×1024。结果表明,带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。

图注:输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作

图注:64 × 64生成图像的超分辨率变化。对于生成的64 × 64图像,将两种超分辨率模型分别置于不同的提示下,产生不同的上采样变化

大型预训练语言模型×级联扩散模型

Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5),它能够非常有效地将文本合成图像:在Imagen中增加语言模型的大小,而不是增加图像扩散模型的大小,可以大大地提高样本保真度和图像-文本对齐。

Imagen的研究突出体现在:

  • 大型预训练冻结文本编码器对于文本到图像的任务来说非常有效;

  • 缩放预训练的文本编码器大小比缩放扩散模型大小更重要;

  • 引入一种新的阈值扩散采样器,这种采样器可以使用非常大的无分类器指导权重;

  • 引入一种新的高效U-Net架构,这种架构具有更高的计算效率、更高的内存效率和更快的收敛速度;

  • Imagen在COCO数据集上获得了最先进的FID分数7.27,而没有对COCO进行任何训练,人类评分者发现,Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。



2

引入新基准DrawBench

为了更深入地评估文本到图像模型,Google Brain 引入了DrawBench,这是一个全面的、具有挑战性的文本到图像模型基准。通过DrawBench,他们比较了Imagen与VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,发现人类评分者在比较中更喜欢Imagen而不是其他模型,无论是在样本质量上还是在图像-文本对齐方面。

  • 并排人类评估;

  • 对语意合成性、基数性、空间关系、长文本、生词和具有挑战性的提示几方面提出了系统化的考验;

  • 由于图像-文本对齐和图像保真度的优势,相对于其他方法,用户强烈倾向于使用Imagen。

图注:Imagen与DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比较:用户对图像-文本对齐和图像逼真度的偏好率(95%置信区间)

Imagen与DALL-E 2 生成图像的比较示例 :

图注:“外星人绑架奶牛,将其吸入空中盘旋”(上);“一个被猫绊倒的希腊男性的雕塑”(下)

对于涉及颜色的文本提示,Imagen生成的图像也比DALL-E 2更优。DALL-E 2通常很难为目标图像分配正确的颜色,尤其是当文本提示中包含多个对象的颜色提示时,DALL-E 2会容易将其混淆。

图注:Imagen和DALL-E 2从颜色类文本生成图像的比较。“一本黄色书籍和一个红花瓶”(上);“一个黑色苹果和一个绿色双肩包”(下)

而在带引号文本的提示方面,Imagen生成图像的能力也明显优于DALL-E 2。

图注:Imagen 和 DALL-E 2 从带引号文本生成图像的比较。“纽约天际线,天上有烟花写成的“Hello World”字样”(上);“一间写着Time to Image的店面”(下)



3

打开了潘多拉魔盒?

像Imagen这样从文本生成图像的研究面临着一系列伦理挑战。

首先,文本-图像模型的下游应用多种多样,可能会从多方面对社会造成影响。Imagen以及一切从文本生成图像的系统都有可能被误用的潜在风险,因此社会要求开发方提供负责任的开源代码和演示。基于以上原因,Google决定暂时不发布代码或进行公开演示。而在未来的工作中,Google将探索一个负责任的外部化框架,从而将各类潜在风险最小化。

其次,文本到图像模型对数据的要求导致研究人员严重依赖于大型的、大部分未经整理的、网络抓取的数据集。虽然近年来这种方法使算法快速进步,但这种性质的数据集往往会夹带社会刻板印象、压迫性观点、对边缘群体有所贬损等“有毒”信息。

为了去除噪音和不良内容(如色情图像和“有毒”言论),Google对训练数据的子集进行了过滤,同时Google还使用了众所周知的LAION-400M数据集进行过滤对比,该数据集包含网络上常见的不当内容,包括色情图像、种族主义攻击言论和负面社会刻板印象。Imagen依赖于在未经策划的网络规模数据上训练的文本编码器,因此继承了大型语言模型的社会偏见和局限性。这说明Imagen可能存在负面刻板印象和其他局限性,因此Google决定,在没有进一步安全措施的情况下,不会将Imagen发布给公众使用。

参考链接:

https://gweb-research-imagen.appspot.com/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
力挺「小三」的「好嫁风教主」,怎么就成了万千少女的「人生导师」?【前瞻Prospect·EP03】线性资本王淮: From Scaling FB to Leading VC Investing彭博受邀出席新浪财经·ESG全球领导者峰会接种疫苗后如何预防血栓大娃的文言笔记第二波(附打印文本)泪眼问花花不语,遥望对岸暗思凝,老妈加油!国内首次!这家中国企业的语言AI实力被公认全球No.2!仅次于谷歌乘上国风,「宫酪 x 美食大师」是顺势而为,还是另辟蹊径?12 个设计师打造的共享办公,办公家具也亲自设计,太有创意!【本周剧本杀】绝佳好本《漓川怪谈簿》《千佛梦》,烧脑推理走起!!【又有小乌龙】有料的设计师,乐高擎天柱Roll Out!約旦埃及2021(9)初到開羅,開羅古城和AI聊出感情!谷歌工程师公布聊天记录后被停职英伟达这篇CVPR 2022 Oral火了!2D图像秒变逼真3D物体!虚拟爵士乐队来了!资深UX设计师分享“桌游实验”:如何设计优秀的用户体验?神秘的 GeckoLinux 创建者推出了一个新的 Debian 合成发行版 | Linux 中国Meta-review还要亲手写吗?篇章级可控文本生成来帮忙CVPR 2022 | 图像修复!中科大&微软提出PUT:减少Transformer在图像修复应用中的信息损失博士意外发现秘密:DALL-E 2自创语言,人看不懂但能生成特定图像,可能会被用来搞事!i-Family | 2022 华大智造 & IDG资本生命健康加速营招募正式开启gedit 深色模式下高亮文本不可见?以下是你能做的 | Linux 中国太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板我学语文教语文的一生(37)早报 | Zara与Bally创意总监合作推出新品牌;巴黎世家Paris鞋履系列引争议;萧邦因抄袭Tiffany遭通报批评适度超前建设数字基础设施,夯实数字经济底座——推动数字经济持续健康发展系列述评之一硅谷寒冬来袭!谷歌宣布本周宣布冻结招聘!Lyft永久关闭+解散这1部门!刚刚!谷歌官宣了一件大事儿!被很多人误读了的藤校 ( Ivy League )谷歌大佬和华裔妻子结婚四年就要离,有啥不可调和的分歧?微软翻倍加薪!谷歌,亚马逊纷纷提高薪资上限?一场直播带你横扫秋招!盘点2021 年薪水最高的硅谷科技公司!谷歌年薪中位数达30万美元!复旦提出ObjectFormer,收录CVPR 2022!图像篡改检测新工作!刚刚!谷歌硬刚苹果,发最强硬件全家桶,首秀AR眼镜AI 又开“画展”了!Google Brain 推出新的图像生成模型——Imagen罗伯特·洛威尔:我为这虚构的文本着色,用的是第一手证据
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。