Redian新闻
>
AI 又开“画展”了!Google Brain 推出新的图像生成模型——Imagen

AI 又开“画展”了!Google Brain 推出新的图像生成模型——Imagen

科技
今年4月的时候,OpenAI 曾展示了它新的图像生成神经网络 DALL-E 2,它可以几乎按照任何要求来生成高分辨率的图像,并在大多数方面都超过了最初版本的 DALL-E。

可仅仅过了一个月,Google Brain 就在近日也发布了自己的图像生成人工智能——Imagen,而它的表现甚至比 DALL-E 2 要更好。

Imagen 的相关论文于5月23日发布在 arxiv 上
(图片来源:arxiv)

Imagen 是一种文本到图像的扩散模型,具有深层次的语言理解能力,可以通过输入文本创建逼真的图像。Imagen 使用大型 frozen T5-XXL 编码器将输入的文本编码为‎‎嵌入‎‎,然后条件扩散模型将文本嵌入映射到 64×64 的图像中,之后再进一步利用超分辨率扩散模型生成 256×256 和 1024×1024 的图像。

输入“一只穿戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后 Imagen 的动作
(图片来源:Imagen)

Imagen 的许多图片都令人惊叹不已,不仅仅是因为图片内容有趣又奇幻,而且很多图片场景带来的真实感十分强烈。

(图片来源:MIT technologyreview)

就像 OpenAI 发布 DALL-E 时所做的一样,Google 也用各种“拟人化动物”的可爱图片来宣传他们的工具,比如一只戴着宇航员头盔的浣熊,一只趴在寿司房子里的柯基,一只戴着皇冠坐在国王宝座上的博美等等。

但是,这些公开的大多数图片之所以都如此可爱,或许是经过精心挑选的结果。其实像 DALL-E 2 和 Imagen 这样的模型,往往依赖于大量网络抓取的图像数据,而这些数据通常是未经处理的,其中既有好的数据,同时也会有不健康的数据。

Imagen 团队表示 :“虽然我们对一部分训练数据进行了过滤,以去除噪音和不良内容,如色情图像和有毒语言,但我们也使用了 LAION-400M 数据集,众所周知,该数据集包含大量不当内容,包括色情图像、种族歧视和有害的社会刻板印象。Imagen 依赖于在未记录的网络规模数据上训练的文本编码器,从而继承了大型语言模型的社会偏见和局限性。因此,Imagen 存在对有害的刻板印象和表述进行编码的风险,这促使我们决定在没有进一步保障措施的情况下,不发布 Imagen 供公众使用。”

尽管 DALL-E 2 和 Imagen 存在风险,但它们本质上大大地推动了人工智能领域的发展,使人工智能再次达到了新的高度。并且,这种人工智能图像生成的技术将有可能成为改变世界的一项技术。

(图片来源:pixabay)

回顾过往,你会发现人工智能在发展到一定程度之后都受到了一个瓶颈的困扰:主要的机器学习手段还是来自于蛮力计算,而且其依赖大量的数据来训练系统。这离人类的思考方式还是有很大区别的。人类在思考时可以进行泛化,例如,婴儿直知道什么是猫之后,再见到其他的猫就能马上知道这是猫。

机器无法进行泛化,这从另外一个方面也反映了机器学习一直只能通过大量数据分析模仿人类的逻辑分析能力,而一直难以实现人类大脑的另一强大功能——想象力。

直到2014年,当时还是蒙特利尔大学博士生的 Ian Goodfellow 突然想到了这个问题的答案——对抗性神经网络。对抗性神经网络的原理是两个 AI 系统可以通过相互对抗来创造超级真实的原创图像或声音。对抗性神经网络赋予了机器创造和想象的能力,也让机器学习减少了对数据的依赖性,对于人工智能是一大突破。

对抗性神经网络被称作是近年来最有潜力的,解决了一直困扰人工智能领域数据来源问题的重要机器学习模型,可以说是真正实现了不依赖人类的无监督学习。对抗性神经网络更是在2018年入选了《麻省理工科技评论》“十大突破性技术”。


自2018年以来,由对抗性神经网络带来的无监督学习方法吸引了越来越多的关注,并使得 AI 在多个领域取得了巨大的进展。除了前面提到的图像生成领域,AI 在文本创作领域同样表现不俗。入选2021年《麻省理工科技评论》“十大突破性技术”之一的 GPT-3 就是一种使用对抗性神经网络无监督学习算法的 “大型语言模型”。

GPT-3 由旧金山的研究实验室 OpenAI 创建。基于GPT-3,AI 能够模仿人类书写文本,且逼真程度令人称赞,人们甚至认为 GPT-3 可以写出任何东西:同人小说、哲学辩论、甚至代码。GPT-3 的出现也让我们可以期待 AI 将在未来走得更远。




最后,让我们尽情欣赏 Imagen 创造的各种“怪异而美妙”的“画作”吧!

戴着大理石耳机的大理石考拉DJ
(图片来源:Imagen)

农场上由玉米制成的巨型眼镜蛇
(图片来源:Imagen)

在雪地里戴着空手道腰带的火龙果
(图片来源:Imagen)

一只戴着太阳镜和沙滩帽的柯基在时代广场骑自行车
(图片来源:Imagen)

一只蓝鸦站在一大篮彩虹马卡龙上
(图片来源:Imagen)

一只非常愤怒的小鸟
(图片来源:Imagen)

一只外星章鱼漂浮在传送门上阅读报纸
(图片来源:Imagen)

一个大脑骑着火箭飞船向月球飞去
(图片来源:Imagen)

泰迪熊在奥运会400米蝶泳比赛中游泳
(图片来源:Imagen)

一对机器人夫妇在埃菲尔铁塔的背景中享用美食
(图片来源:Imagen)



项目地址:https://gweb-research-imagen.appspot.com
论文地址:https://arxiv.org/pdf/2205.11487.pdf




参考资料:
1、The dark secret behind those cute AI-generated animal images-MIT technologyreview
2、imagen.research.google
3、《科技之巅3》-人民邮电出版社

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
我和娘亲在外婆“老虎灶”的往事回忆 (中)精选SDE岗位 | Google、VMware等公司最新职位发布!Google I/O 2022: 促进知识和计算机技术发展Google 新园区正式开放,100%「纯电动」精选SDE岗位 | Google、WEX、VMware等公司最新职位发布!Google为此组建项目团队?马斯克竟然明贬实褒!所谓的Web3.0究竟有什么魔力?Google I/O 2022 全记录:Android 玩起了多设备协同,新硬件成为全场主角大学生的Google实习,被高中生抢了硅谷新地标诞生!Google海景大楼正式开放,Apple Park被秒杀?精选SDE岗位 | Amazon、Google、VMware等公司最新职位发布!上一个说“丼”不读jǐng的人,已经被我骂哭了在美国56. 我勾引男人?开源朗读者:Brave vs. Google Chrome:哪个浏览器更适合你? | Linux 中国光速悖论仅剩20天!Google这批新岗位即将关闭!兵不厌诈,俄军要放大招了?美博转码的我150天曲线上岸Google,扬眉吐气的一天终于来了!10岁白血病男孩用笔尖描绘心声,“办一个属于我自己的小画展”……Google扩招、Amazon2023年夏季实习岗开放!秋招求职破局之道就等你来!Android 手机上难用的「返回键」,Google 要亲自下场改了谷歌(Google)计划在华盛顿洲柯克兰(Kirkland)开设办事处再投资1亿美元“全赖Google”,开源作者撤下所有应用并宣布:我不会回来了曾把Google工程师团队带到中国的她,撑起了不止硅谷半边天「瞄准」Apple Watch,Google 要为 Pixel Watch 开发多种表带讲座进行时 | Google出题人在线讲解解题思路!最新Offer | 打小抄被发现,Google还主动要人!精选SDE岗位 | Google、Amazon、Wex等公司最新职位发布!逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen普列汉诺夫说自由快来围观!Amazon跟Google呛起来了!Google:多给同学们一次实习机会!App红点消失术!你的强迫症Google来拯救精选SDE岗位 | Google、GE Appliances、iRobot等公司最新职位发布!精选SDE岗位 | VMware、Google、Verily等公司最新职位发布!精选DS岗位 | Google、Amazon等公司最新职位发布!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。