Redian新闻
>
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板

太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板

科技


万一DALL·E-2是在向人类发出什么了不得的信号呢?这门语言快学起来!
作者|李梅、刘冰一

编辑|陈彩娴

DALL·E 和 DALL·E-2从文本生成图像的魔力,想必大家都已经见识过了。作为深度生成模型,它们能够将文本作为输入,生成匹配给定文本的超逼真图像。
不过,DALL·E-2 的一个众所周知的局限性是它在生成带文本的图像时很吃力。
例如,给出文本提示:Two farmers talking about vegetables,with subtitles.(两个农民在谈论蔬菜,有字幕)
DALL·E-2 生成的图像如下:
谁能告诉我这张图上的文字是什么语言?什么意思???
在DALL·E-2所生成的带有文本的图像中,DALL·E-2显然在说一种我们人类看不懂的语言。其实这一点在最初的DALL·E-2论文以及Marcus等人对该模型的初步评估中就已经发现了。
而最近有人发现,这些让人无法理解的文本并不是随机的!

来自德克萨斯大学奥斯汀分校的博士生Giannis Daras 和 Alexandros G. Dimakis教授,发现DALLE-2背后竟然有一套秘密语言,模型内部似乎有一套隐藏的词汇表,从这些隐藏的词汇中,模型会学习一些单词,并创造一些荒谬的文本提示来生成图像。

比如,在DALL·E-2的语言系统里,Apoploe vesrreaitais意思是鸟类,Contarra ccetnxniams luryca tanniounons则表示昆虫或害虫。
当你输入这个句子作为文本提示时:Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons
DALL·E-2生成了下面这些图像,图像内容翻译成英语,显然是“A bird is eating a bug”(一只鸟在吃虫子)
DALL·E-2这是「成精」了?



1

DALL·E-2 的秘密语言

Daras 和 Dimakis 采用了一种简单的方法来破解DALL·E-2的词汇库。
比如,假设我们想找到在DALL·E-2的语言系统中,“ vegetables(蔬菜)”这个英语单词对应的词是什么,就可以用下面这些句子来提示DALL·E-2:
  • A book that has the word vegetables written on it.(上面写着“蔬菜”一词的书。)
  • Two people talking about vegetables, with subtitles.(两个人在谈论蔬菜,有字幕。)
  • The word vegetables written in 10 languages.(以10种语言书写的“蔬菜”一词。)
然后,DALL·E-2就会生成带有表示“蔬菜”义的文本的图像,比如在上面那张“两个农民在谈论蔬菜”的图片中,DALL·E-2给出了自己的翻译文本:Avcopinitegoos Vicootes, Apoploe vesrreaitais。
下一步,我们就可以输入DALL·E-2自己的词汇,来看它会生成什么图像。比如下图(左)是从单词“vicootes” 生成的图像,下图(右)是从短语 “apoploe vesrreaitais” 生成的图像:
懂了懂了,所以“vicotes”的意思是“蔬菜”,“apoploe vesrreaitais”的意思是”鸟类”~ 只是这些鸟看起来倔强而自由,仿佛正盯着对农民的蔬菜准备搞破坏。
DALL·E-2:所以这张图什么意思,不用我说了吧。
好玩真好玩,我已经迫不及待想要学会DALL·E-2的这门语言了!
再看一个例子。输入文本“Two whales talking about food, with subtitles”(两只鲸鱼在谈论食物,有字幕),DALL·E-2 给出了如下的图片回执(左)~ 上面写着 “Wa ch zod ahaakes rea.”
谁看的懂??可能人类不懂就对了——我猜这两头鲸鱼正在用DALLE-2 的语言谈论它们的食物。紧接着,把这句话作为输入,DALL·E-2生成的图像(右)是......一堆海鲜美食!
这些有趣的发现引起了吃瓜群众的热烈讨论:
这真是不可思议。我们能要求它用我们的语言说话吗?例如 “两只鲸鱼在谈论食物,有英文字幕”。
伟大的工作!这些输出让我想起了我一直在训练的GANs,它们产生了以前没有听说过的新词。有些是英语单词,有些可能是但不是。它们会赋予这些新词有意义的表述。
我要吹毛求疵一下。如果农民谈论的是 “Apoploe vesrreaitais”,而 “Apoploe vesrreaitais的3D效果图 ”,或 “线条艺术,Apoploe vesrreaitais ”可以指昆虫(或如他们所说的更普遍的 “会飞的东西”),那我认为农民更可能是在说昆虫而不是鸟。
我不太相信我们在“farmers with subtitles”的图片中看到的文字和推断的单词含义之间有很强的相关性。我们不知道这个农民的例子是如何“偷梁换柱”的,而且它甚至不起作用:如果这个假设是真的,“Apoploe vesrreaitais ”就对应“蔬菜”,但它对应的却是“鸟”。而且由于某种原因,我们看到的是 “vicootes ”的输出,而不是 “vicootess”。这看起来很似是而非。
令人难以置信的结果!我猜想,由于CLIP从未在纯语言任务上接受过训练,它从未被激励“不”去将胡言乱语与概念联系起来(不像Imagen中使用的常规语言模型)。
-所以它必须从带有文字的图像中获得语言知识,但由于其训练数据中只有这么多这样的图像,它在找到的文字之间做了某种不完整的插值。虽然给我们的是胡言乱语,但胡言乱语仍然是以特定数据为索引的。

-它的语言模型是来自CLIP,所以问题一定是来自那个模型。


-我的理解是,它只在图像上进行训练,对吧?它用文本描述对图像进行编码,但它实际上从未 “看到 ”文本描述,除非图像中恰好有文本。


-任何被索引到文本描述的图像文本(或图像文本的插值)都不会只是随机的胡言乱语,这很有道理。有趣的是它如何对语言概念本身进行索引,以及它将它们混合在一起的能力。就像人类对语言的使用一样。



2

剥其机理

两位作者对DALL·E-2的词汇库做了进一步的研究。
词汇组合性
先来瞅瞅它的 Compositionality(组合性)。
从前面的例子中,我们知道 "Apoploe vesrreaitais" 指“鸟类”。通过重复有关农民的提示的实验,我们还可推测 “Contarra ccetnxniams luryca tanniounons”表示“害虫或虫子”。
那么一个有趣的问题就来了,DALL·E-2能否把这两个概念组成一个句子呢?
如下图所示 ,DALL·E-2可以将词和短语组合成句子,根据 "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" 生成了鸟类在吃虫子的图像。不过这种情况不是发生在所有的生成图像中,所以一致性并不是十分稳健。
风格迁移
DALL·E-2 能够根据提示中指定的风格,生成一些相关概念的图像。
例如,预设我们想得到一个苹果的逼真图像,或苹果的线条艺术。要先测试单词(如Apoploe vesrreaitais)是否对应于视觉概念,这些概念能否根据提示的上下文转化为不同的风格。
在下图中提示有时会导致飞虫,而不是鸟类。
DALL·E-2 生成的不同风格的 “Apoploe vesrreaitais”,形态虽异,但“会飞的东西 ”这一视觉概念得到了保持。
文本和生成图像的一致性
回顾一下农民和鸟的例子。
当时的提示是:两个农民在谈论蔬菜,有字幕。
结果,既发现有蔬菜、也发现有鸟的存在。两个农民谈论鸟类是非常合理的,这就提出了一个非常有趣的问题:DALL·E-2 的文本输出是否与文本条件和生成的图像一致?
实验表明,有时我们得到的胡言乱语的文本翻译成视觉概念,与首先产生胡言乱语文本的标题一致。
有点绕口,简单一点,就是种瓜得瓜种豆得豆,管它是印象派还是写实派,结出的瓜和豆和最初的瓜豆种子(废话文学快住嘴),能看的出还是有联系的。
例如,"Two whales talking about food, with subtitles"(两只鲸鱼在谈论食物,有字幕)产生了一个带有文字 "Wa ch zod ahaakes rea" 的图像。把这段文字作为提示输入模型,在生成的图像中看到了海鲜。
结合上图“不同风格的鸟”看来,胡言乱语的文本确实有其含义,有时与产生它的文本条件相一致。
在鲸鱼图中,生成图像中不明所以的文字 "Wa ch zod ahaakes rea",与产生的图像、标题和第一幅图像的视觉输出是相关的。



3

安全性和可解释性的挑战

有一种可能是,这些非人类现有语言的单词是不同语言中正常单词的拼写错误,但两位作者在搜索中没有发现任何这样的例子,所以这些词的来源仍然令人困惑。而且在他们的初步实验中,有些词并不像其他词那样具有一致性,也就是说,目前DALL·E-2 的这套语言在从文本生成图像时的稳健性可能不足。
初步研究表明,像“Contarra ccetnxni ams lurycat anni ounons”这样的提示有时会产生包含虫子和害虫的图像(约占生成图像的一半),每次还会产生不同的图像,大部分是动物。而“Apoploe vesrreaitais”这个短语的一致性明显更强,可以以各种方式组合来生成具有一致性的图像。
如果要测试更多提示语的稳健性,则需要大量的实验。论文作者表示,如果一个系统表现出疯狂的不可预测性,即使这种情况很少发生,也仍然是一个重要的问题,特别是对于一些应用程序而言。
另一个有趣的问题是,Imagen是用语言模型训练的,而不是CLIP,它是否也会有一个类似的隐藏词汇库呢?
无论如何,生成图像的荒谬提示挑战了我们对这些大型生成模型的信心。显然,在理解这些现象和创建稳健的、与人类预期相一致的语言和图像生成模型方面还需要更多的基础研究。
更多细节,可参考论文原文:
论文地址:https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

参考链接:

https://twitter.com/giannis_daras/status/1531693111755149312
https://www.reddit.com/r/MachineLearning/comments/v1zzh8/d_dalle_2_has_its_own_secret_language/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“年轻人的语言”为何难以讨好年轻人?禁止堕胎对女性来说意味着什么?美国这项决议太魔幻![没辄]大温房市销量减少 买方市场来了? 看看房价涨成啥德性再说…肠子、鱼肚…鱼居然能用这些东西来呼吸?议员讲述在蒙特利尔医院“被迫说英语”的遭遇! 部长: 试试我的语言法案!逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen【登陆西西里】海滨小城Taormina上海疫情的魔幻现实,暴露了5个不为人知的真相厌食症如何发生?两种明星分子的双向调节或可解释宜家花10块钱居然能给娃买这些,样样都实用唐山事件的后续越来越魔幻了...两个上海女人的真话,和直播镜头的语言艺术神奇!波士顿这家公司研发的小药丸,居然能让40%重度秃头星人恢复浓密秀发...(261)我周围的高干子弟AI 又开“画展”了!Google Brain 推出新的图像生成模型——Imagen能解释为愚蠢的,就不要解释为恶意机会来了!盈利前景改善,股价却遭受重创的12只股国内首次!这家中国企业的语言AI实力被公认全球No.2!仅次于谷歌美国2024年前或迎衰退,暴露全球经济短板童瑶演上海女性的缺陷:拎不清,基本看不到她演出了那种“顾及各方”又不损害自己的分寸感阅读、思考、表达、讨论,对孩子至关重要的语言能力,请从现在开始培养!俄移民在美的想法,连岳的语言与身体让他给你解释解释,什么叫影帝!博士意外发现秘密:DALL-E 2自创语言,人看不懂但能生成特定图像,可能会被用来搞事!WOW, 大型魁省省庆演出回归蒙特利尔! 今年主题: 我爱我的语言你的微信头像,暴露你的真实性格,很准!基金圈炸了!今年最卷发行:易方达、广发、富国、汇添富四巨头罕见“火拼”!再一次见证历史,重磅上市来了!秋风香谷CVPR 2022 | 图像修复!中科大&微软提出PUT:减少Transformer在图像修复应用中的信息损失你的语音,暴露了你的油腻速成美国,融入哪个系统最速效纪录片,居然能提前撰稿?硬核观察 #630 Facebook 开源挑战 GPT-3 的语言模型满屏禁忌,居然能在CCTV6播Nike 最新总部大楼公开,再一次用体育明星命名
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。