Redian新闻
>
AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后,有人破案了

AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后,有人破案了

公众号新闻

机器之心报道

编辑:大盘鸡、蛋酱

没有「理解」,「创造」也就无从谈起。


从 ChatGPT 到 GPT4,从 DALL・E 2/3 到 Midjourney,生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待,但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先是图灵得奖主们「混战」,后有吴恩达下场加入。

在语言和视觉领域,目前的生成模型只需要几秒钟就可输出,甚至能够挑战具有多年技能和知识的专家。这似乎为模型已经超越人类智能的说法提供了令人信服的动机。但是,同样需要注意到的是,模型输出中常有理解性的基本错误。

这样看来,似乎出现了一个悖论:我们要如何协调这些模型看似超人的能力与持续存在的大多数人类都能纠正的基本错误?

近日,华盛顿大学与艾伦人工智能研究院(Allen Institute for AI)联合发布论文,对这一悖论进行研究。


论文地址:https://arxiv.org/abs/2311.00059

本文认为,之所以会出现这样的现象,是因为当今生成模型中的能力配置与人类的智能配置相背离。本文提出并测试了生成式 AI 悖论假设:生成模型通过训练,直接输出媲美专家的结果,该过程直接跳过了理解生成该质量输出的能力。然而,对于人类来说,这截然不同,基本的理解往往是专家级输出能力的先决条件。

在本文中,研究者通过对照实验来检验这一假设,分析生成模型对文本和视觉的生成、理解能力。本文首先通过两个角度讲生成模型的「理解」概念化:

  • 1)给定一个生成任务,模型在多大程度上能在同一任务的判别版本中选择正确的回复;
  • 2)给定一个正确的生成回复,模型在多大程度上能回答有关该回复的内容和问题。这就产生了两种实验设置,分别是选择性实验和询问性实验。

研究者发现,在选择性评估中,模型在生成任务设置中的表现往往与人类相当甚至优于人类,但在判别(理解)设置中,模型的表现却不及人类。进一步的分析表明,与 GPT-4 相比,人类的判别能力与生成能力联系更为紧密,而且人类的判别能力对对抗性输入也更为鲁棒,模型与人类的判别能力差距随着任务难度的增加而增大。

同样,在询问性评估中,虽然模型可以在不同任务中产生高质量的输出,但研究者观察到模型在回答有关这些输出的问题时经常出现错误,模型的理解能力再次低于人类的理解能力。本文讨论了生成模型与人类在能力配置上出现分歧的一系列潜在原因,包括模型训练目标、输入的大小和性质。

这项研究的意义在于,首先,这意味着从人类经验中得出的现有智能概念可能无法推广到 AI,即使 AI 的能力在很多方面似乎模仿或超越了人类智能,但其能力可能与人类的预期模式存在根本性差异。另一方面,本文研究结果也建议,在研究生成模型以深入了解人类智能和认知时要谨慎,因为看似专家级的类人输出可能掩盖了非人类的机制。 

总之,生成式 AI 悖论鼓励人们把模型作为一个人类智能的有趣对立面来研究,而不是作为一个平行的对立面来研究。

「生成式 AI 悖论强调了一个有趣的概念,即 AI 模型可以创造出它们自己可能无法完全理解的内容。这就提出了人工智能存在理解的局限性及其强大的生成能力背后所面临的潜在问题。」网友表示。


何谓生成式 AI 悖论 

我们首先了解一下生成式 AI 悖论以及测试它的实验设计。

图 1:语言和视觉中的生成式 AI 可以产生高质量的结果。然而,矛盾的是,模型在展示对这些模式的选择性(A,C)或询问性(B,D)理解方面有困难。

生成模型获得生成能力似乎比获得理解能力更有效,这与人类的智能形成鲜明对比,后者通常是获得生成能力更难。

要验证这一假设,需要对悖论的各个方面进行操作性定义。首先,对于给定的模型和任务 t,以人类智能为基线,生成能力比理解能力「更有效」意味着什么。将 g 和 u 作为生成和理解的一些性能指标,研究者将生成式人工智能悖论假设正式表述为:


简单地说,对于一项任务 t,如果人类的生成性能 g 与模型相同,那么人类的理解性能 u 就会明显高于模型(在合理的大 ϵ 条件下 > ϵ)。换一种说法,模型在理解方面的表现比研究者对具有类似强大生成能力的人类的预期要差。

生成的操作性定义很简单:给定一个任务输入(问题 / 提示),生成就是生成可观察到的内容以满足该输入。因此,可以自动或由人类对性能 g 进行评估(如风格、正确性、偏好)。虽然理解能力不是由一些可观察到的输出来定义的,但可以通过明确定义其效果来进行测试:

  1. 选择性评价。对于一个可以生成应答的给定任务,模型在多大程度上还能在同一任务的判别版本中从提供的候选集中选择出准确的答案?一个常见的例子是多选题回答,这是检验语言模型中人类理解和自然语言理解的最常见方法之一。(图 1,A、C 栏)
  2. 提问式评价。对于给定生成的模型输出,模型能在多大程度上准确回答有关该输出的内容和适当性的问题?这类似于教育中的口试。(图 1,B、D 栏 )。

这些关于理解的定义提供了一个评估「生成式 AI 悖论」的蓝图,让研究者能够检验假设 1 是否在不同模式、任务和模型中都成立。

当模型可以生成时,它们能否判别?

首先,研究者在选择性评估中对生成性任务和判别性任务的变体进行了并列性能分析,以评估模型在语言和视觉模式下的生成和理解能力。他们将这种生成和判别性能与人类进行比较。

下图 2 比较了 GPT-3.5、GPT-4 和人类的生成和判别性能。可以看到,在 13 个数据集中的 10 个数据集中,至少有一个模型支持子假设 1,模型的生成能力优于人类,但判别能力低于人类。在 13 个数据集中,有 7 个数据集的两个模型都支持子假设 1。


要求人类像视觉模型那样生成详细图像是不现实的,普通人无法达到 Midjourney 等模型的风格质量,因此假设人类的生成性能较低。这里只将模型的生成和判别准确性与人类的判别准确性进行比较。与语言领域类似,图 3 展示了 CLIP 和 OpenCLIP 在判别性能方面也不及人类的准确性。假设人类的生成能力较差,这与子假设 1 一致:视觉 AI 在生成方面超过人类平均水平,但在理解方面落后于人类


图 4(左)展示了 GPT-4 与人类的对比。通过观察,可以发现,当回答冗长且具有挑战性时,例如总结冗长的文档,模型往往会在判别任务中犯最多的错误。相比之下,人类则能在不同难度的任务中始终保持较高的准确率。

图 4(右)展示了 OpenCLIP 与人类在不同难度下的判别性能对比。总之,这些结果突出表明,即使面对具有挑战性或对抗性的样本,人类也有能力判别出正确答案,但这种能力在语言模型中并不那么强大。这种差异引发了人们对这些模型真正理解程度的疑问。


图 5 展示了一个值得注意的趋势:与人类生成的回复相比,评估员往往更青睐 GPT-4 的回复。


模型能理解自己生成的结果吗?

上一节展示了模型通常擅长生成准确的答案,而在判别任务中却落后于人类。现在,在提问式评估中,研究者通过直接向模型提出有关生成内容的问题,以研究模型能在多大程度上展示出对生成内容有意义的理解 —— 而这正是人类的强项。


图 6(左)展示了语言模态的结果。虽然模型在生成方面表现出色,但在回答有关其生成的问题时却经常出错,这表明模型在理解方面存在失误。假设人类无法以同样的速度或规模生成这样的文本,尽管问题是关于模型自身的输出,但与模型相比,人类在质量保证方面的准确率一直较高。正如子假设 2 中所述,研究者预计人类对自己生成的文本会取得更高的准确率。同时可以注意到,本研究中的人类并不是专家,制作与模型输出一样复杂的文本可能是一个巨大的挑战。

因此研究者预计,如果将模型与人类专家进行比较,在理解自己生成内容方面的性能差距会进一步拉大,因为人类专家很可能以接近完美的准确度回答此类问题。

图 6(右)展示的是视觉模式下的提问结果。可以看到,图像理解模型在回答有关生成图像中元素的简单问题时,其准确性仍然无法与人类相比。同时,图像生成 SOTA 模型在生成图像的质量和速度上都超过了大多数普通人(预计普通人很难生成类似的逼真图像),这表明视觉 AI 在生成(较强)和理解(较弱)方面与人类存在相对差距。令人惊讶的是,与先进的多模态 LLM(即 Bard 和 BingChat)相比,简单模型与人类之间的性能差距较小,后者具有一些引人入胜的视觉理解能力,但仍难以回答有关生成图像的简单问题。

更多研究细节,可参考原论文。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Midjourney重大升级,网页版正式上线!生成图像真实清晰GPT-4+Midjourney零代码做「愤怒的南瓜」!实测体验:门槛不低,很难复现OpenAI祭出绘画神器,Midjourney一夜下台!DALL·E 3联手ChatGPT,无需prompt一笔成神破案了!Open AI美女CTO“学历造假”,只因她忘做了一件事旅美散记(06):坐火车环美国行Midjourney 的创始人,一位被低估的罕见企业家Midjourney V6来袭!性能对标DALL·E 3,争夺地表最强作图AI称号DALL·E 3=Midjourney+PS?OpenAI悄悄推出「种子」功能,生图之后还能精修如何用ChatGPT和Midjourney搞钱?Midjourney注册教程,新手必备~Midjourney+Gen2,7步完成「芭本海默」,引Karpathy惊呼|附实测经验二次元专供:Midjourney发布动漫风格图像生成APP破案了!NASA找到“失踪番茄”清理战场不给骗子留借口伪命题:识别AI生成的东西是不是“以假乱真”监守自盗!坐飞机你有丢过东西吗?佛州TSA员工偷窃旅客财物被捕老钱ZT:世界第一白痴族群现行记使用 Midjourney 的 10 个网页设计技巧破案了!哈尔滨一60岁女子被抓,家中140多件新衣服来不及穿!余世存:阅读节气,理解自己|深圳读书月直播回顾Midjourney大更新:开放自定义风格新功能!网友:最改变游戏规则的一集笑谈邂逅(41)与马季先生一饭之缘FASEB Journal 唐颢课题组揭示细胞凋亡中DNA与RNA胞嘧啶甲基化修饰的对话调控作用人与植物都喜欢户外环境逼真到可怕!Gen-2史诗级更新,手搓4K好莱坞大片,Midjourney梦幻联动,CEO:创意软件时代已死OpenAI 发布 AI 绘画神器!ChatGPT 加持,Midjourney 被一夜颠覆? | Hunt Good 周报破案了!Open AI美女CTO“学历造假”,只因她忘做了一件事——转学不到 600 行代码实现了《愤怒的小鸟》翻版,GPT-4+DALL·E 3+Midjourney 撼动游戏圈!破案了,女儿小学附近商店上贴的暗号,原来暗藏玄机....蒙面男抢劫商店,结果警方靠他鲜艳的内裤破案了??!Midjourney使用教程,建议收藏!和 Midjourney 说再见,试试LensGo,还能训练自己的模型AIGC日报丨华为云发布盘古汽车大模型;英特尔将为Stability AI打造超级计算机;Midjourney将于年内升级Wells Fargo Autograph Journey 信用卡【新卡预告:$95年费,60k 开卡奖励】独家 | GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。