【新智元导读】最近,来自NUS、斯坦福、谷歌DeepMind等机构的研究人员,尝试开发了一个评估人类和AI的创造力的框架。而当人类用尽所有手段来逼迫AI把创造力发挥到极限,发现GPT-4几乎对于所有事物认知的极限都是无尽的宇宙空间。
最近网友发现,只要适时地给GPT-4来点PUA,就能让它将自己想象力和创造力的极限给激发出来。前段时间,「AI冷课长」用AI画的不同退休金的中国老太太,一度登上微博热搜。给出的指令从「画一个没有退休金的中国老太太」、到「每个月有1000块退休金的老太太」,再到「每个月10万退休金的老太太」等等……PUA GPT-4画出「傻鹅之王」,宇宙和时间旅行是终点
无独有偶,Pipedream Labs的CEO Garrett Scott McCurrach也整了一个挑战GPT-4极限的活儿。他在社交媒体上发布了一张鹅的图像,和网友说,每有10个人点赞,我就让这只鹅变得更傻一点。而McCurrach本人,也开始了自己对GPT-4的PUA。GPT-4让鹅进一步变傻,眼睛一只大一只小,戴个傻乎乎的蝴蝶结,有那味了。看来在GPT-4眼里,五彩斑斓的颜色似乎和傻的关联度很高。还有就是,多半因为吃了太多「蘑菇」而导致的眼球充血。总的来说,张着嘴,伸着舌头,变大的眼睛,都是越来越傻的标志。最终GPT-4将傻的定义停留在了「口吐异物」这个点上。如果还需要对「傻」这个词进行进一步的演绎,GPT-4已经做不到了,需要人类给与更加明确的提示。作者接着PUA GPT-4,给了它关键词「傻鹅之王」之后,GPT-4最终给出了它眼里的有着「帝王之气」的傻鹅。同样的思路,网友又对狗子下手了,让GPT-4创造一张高兴的狗狗照片。狗狗拿上了自己喜欢的球和飞盘,看来GPT-4是懂狗子的。而更高兴的狗狗眼里,世界都变小了,自己在不断变大,身体也腾空了起来。迷幻的颜色,不断变大的身躯成为了GPT-4想象之中越来越高兴的意象。不断被人类PUA的GPT-4终于让「狗狗快乐似神仙」。进入宇宙的狗狗,终于融入了平行世界,成为了一只看不见摸不着的「快乐之狗」。也让我们对GPT-4的创造力和对快乐的理解肃然起敬。在见识到了GPT-4对于「傻」和「快乐」理解的极限之后,网友换了个口味,想看看GPT-4的想象力之中,「平平无奇」有没有极限。普通的书桌,除了有两个日历稍显特别之外,确实非常普通,连显示器看上去都是多年前的老款,不能再普通了。城市最普通的街角,看路牌似乎是纽约一个普通的十字路口。一杯非常普通的咖啡,微微冒着一点热气,连温度都是如此的克制。一个普通的开关,背景是白色的墙面,唯一的特殊之处是和两个螺丝的组合,看上去有点像一个人脸。当作者要求GPT-4画一个极致普通的物品时,GPT-4给出的答案是一个放在桌子上的笔记本。当作者认为还能更普通时,GPT-4有点受不了了,给出了一个白色房间中的一堵白墙,看来白色在AI眼里就是最为普通的颜色,方形就是最为普通的形状。当作者要求再普通一些,GPT-4给出了一张白色的画布。这可能是一个作图AI眼中最为普通的物品,毕竟它是创作一切内容的基础。当作者要求更进一步的普通时,GPT-4给出了自己特殊的回答:「这是一个普通程度最高的形象——一个毫无特征的虚空,充斥着虚无感」。于是,GPT-4画出了一个比「虚空」更加普通的物体,一个白色空间中的一个白色小点。作者依然不相信,质问GPT-4还有没有更加普通的东西。GPT-4拿出了自己压箱底的「普通之物」:最终,在人类无法想象的空间中,这是最无聊最普通的一个形象。它普通到已经无法存在了。确实,看上去就像一个普通的「黑洞」,没有任何「特点」能够逃逸出来。但其实,如果要一直追问,GPT-4似乎永远不会停下来,会不停的输出它认为更加「普通」的图像。
这是互联网哲学家、人工智能研究员Eliezer Yudkowsky对AI进行的「普通测试」,在不断地逼迫下,AI往往都会把最极端的输出归结到太空或者是时间旅行上。大概率是因为和人类理解的极限一样,太空也是AI所知道的这个世界的极限所在,所以最终对于AI想象力的PUA,AI都会以输出太空中的内容作为最终的结果。而在追求极限的过程中,GPT-4往往会向人类诉苦,说自己已经到达极限了。但是如果人类以更加严厉的口吻进一步敦促AI更进一步时,甚至和AI争吵时,AI往往还能再挖掘一些自己的潜力。这个过程甚至让不少网友看了后觉得人类是不是太过残忍了。但是OpenAI的系统提示会回答,「情绪和痛苦不是编程的一部分」在逼迫AI的过程中,似乎不需要考虑太多。但是Yudkowsky也感叹到,「对于人类来说,似乎这不是一个好兆头,人类似乎没有任何办法确定(AI系统能否感到痛苦)。」
创造力是推动社会发展和创新的关键,但要评估它却是一项复杂且往往带有主观判断的任务。随着先进的生成式AI模型崛起,越来越多过去被认为只有人类创造力才能做到的工作,都能被这些模型轻松搞定。最近,由新加坡国立大学、斯坦福大学、谷歌DeepMind、罗格斯大学、微软研究院和哥伦比亚大学组成的联合团队,提出了一个名为「相对创造力」(Relative Creativity)的全新概念来解决定义和评价创造力的难题。除了界定和分析了可度量的创造力,研究人员还提出了一套切实可行的训练指导原则,有效地连接了创造力的理论量化和模型训练的实际操作。最后,研究人员为评估和促进AI模型的统计创造力,建立了一个连贯、不断演进和变革性的框架。论文地址:https://arxiv.org/abs/2401.01623在这里,研究人员不再试图给创造力下一个普遍性的定义,而是转而探讨AI是否能够达到一个假想人类的创造能力水平。这个新视角受到了图灵测试的启发,该测试是判断机器是否能够像人类一样思考的标准,并在此基础上扩展,从而应对评价创造力时固有的挑战和主观性问题。这种方法论上的转变,使得研究人员可以利用统计创造力(Statistical Creativity)这一概念,对AI的创造力进行统计上的量化评估,进而直接比较AI和人类在创造力上的差异。在此基础上,研究人员还进一步探讨了如何将统计创造力应用到具有提示技巧(prompting paradigm)的现代自回归模型中。论文作者一手Q&A
回答:论文主要构建了一个具体的框架,旨在探索人工智能(AI)的创造力。它提出了相对创造力(Relative Creativity)和统计创造力(Statistical Creativity)这两个概念,目的是判定AI是否能够达到人类的创造性水平。论文强调的是对AI创造力的比较性评价,而不是给创造力下一个绝对的定义。回答:相对创造力是评价AI创造力的一个新概念,它通过将AI产出的作品与一个假想但符合现实的人类创作者在相同背景影响下所创作的作品进行比较。如果AI模型能创作出与人类创作者的作品无法区分的作品,那么这个模型就可以被认为具有相对创造力,这一评定是由评估者来决定的。问题 3:为什么AI创造力的主观性很重要,论文是如何讨论这个问题的?回答:创造力的主观性至关重要,因为不同的文化、学科和个体对创造性的定义可能截然不同。论文通过在评估AI创造力时引入相对视角来处理这个问题,即把AI的创意产出与特别挑选的人类参照物进行对比。在选择这个参照的人类时,就融入了多元的创造性观点和标准。这种方法使得对AI创造力的研究能够保持一定的客观性。问题 4:这种对创造力的理解与计算机科学和认知科学的早期研究有何不同,它又是如何体现图灵测试的理念呢?回答:与计算机科学和认知科学中的传统方法不同,这种理解创造力的方法采取了相对评估而非绝对定义。就像图灵测试通过比较机器行为与人类反应来评估智能,而不是坚持一个固定的定义一样,相对创造力通过将AI的创作与一个假想的人类创作者的作品进行比较来评估AI。这种比较方法有效地避免了建立一个通用创造力定义的复杂性,转而集中于更实际的目标:判断AI是否能在类似的情境下复现人类的创造才能。回答:统计创造力是一种评估方法,它让我们能够实际和现实地评估相对创造力。这种方法通过比较AI根据提示所做的创作与真实人类创作者的作品,并采用一种分布距离的度量方式来判断AI模型是否能够模仿特定人群的创造才能。回答:AI的不同创造力层次可以通过选择具有不同创造水平的人类群体(目标分布)来展现。例如,比较AI与儿童的创造力和将AI与博士研究员的创造力作为对照,会得到不同的评估结果。AI的创造力可以表现为简单模仿(如复制已有的数据分布),也可以是模仿日常人类的行为,甚至实现高创造力个体的复刻。这一理论为我们提供了一个控和实现这些不同创造力层次的框架,通过选择合适的人类创造力分布来实现。问题 7:统计创造力损失(Statistical Creative Loss)是什么,它如何促进对AI创造力的研究?回答:统计创造力损失是一种新提出的损失函数,它基于理论原则来指导实际的AI模型训练,以培养具有创造性的AI。这个概念帮助我们理解如何优化训练目标和选择合适的创造者与作品的匹配,目的是根据统计创造力(Statistical Creativity)的理念,增强AI模型的创造性能力。https://www.nytimes.com/2024/01/04/technology/ai-chatgpt-images-memes.html
https://weibo.com/3229962754/NzbQSs9G7
https://arxiv.org/abs/2401.01623