Redian新闻
>
Sora、梦境与比喻——模拟世界的三种方式

Sora、梦境与比喻——模拟世界的三种方式

公众号新闻

 防走失,电梯直达安全岛报人刘亚东A 





来源:经济观察报

作者:周泽雄



我关注的AI公众号,最近天天推送OpenAI公司的Sora制作的AI视频,千奇百怪,异想天开。单看影像品质,我的常识和见识每天都在拆卸重组。


Sora自诩“世界模拟器”(world simulators),它对视觉经验的最大冲击是:打破三界,重组万物,又假装一切都是自然而然、顺理成章。


它的训练和算法里有一种不顾一切、杀神弑佛的伪现实主义倾向。它不会说“不”,不管人类给出的提示词(prompt)多么荒诞不经,它总是见招拆招,有板有眼,仿佛它只是一名刻板的写生画家。Sora镜头华美,风格多变,但它的创作态度则是纪实的,它擅长合理化所有荒诞:我们看到了一只皮肤由树叶组成的大象在森林里行走,见到一列微型火车沿着植物的叶脉蜿蜒前行,撞见一名头脸由黄色气球构成的无脑人在都市里穿梭通勤,还目睹了大量乍看煞有介事、细想绝无可能的“杂拌生命”——下半身像蜗牛的猫在海中游弋,狐狸正以乌鸦的姿态栖息树间,一辆绚丽跑车以海豚的姿势跃出海面……


总之,当人类向它发出戏谑指示,Sora每次都回报以严谨,对指令中暗含的“恶作剧”视而不见。它制作视频时的潜台词根本不是“瞧,我的想象力多么奇特、奔放”,而是一声声谦卑回应:“主人,您的指示我已完成。请审核,请慢用。”


Sora希望我们相信它制作的一切;我们若相信了它,世界恐怕将不再可信。它凭一种无动于衷的超然直面荒诞,最终使荒诞得到降解,并不着痕迹地隐入现实。现实经此一搅和,则将如梦如幻。它不动声色,借助几何原理和物理定律呈现被扭曲的对象,人类则在大惊失色之后习以为常,逐渐把荒诞视为常态。当你要求Sora再现一种“意料之外、情理之中”的情境,比如复活一位特定情境中的先人,它会不由分说地完成任务,仿佛为你制作一杯咖啡,而视频的清晰度和生动性,却足以榨出你的眼泪,扰乱你的身心,颠倒你的时空。诚然,这相当不坏,但长此以往,我们对生命的回忆和反思,将失去凭依。


日前瞄到一个视频,美国前总统奥巴马在讲述量子力学原理。换在一年前,每个地球人都不会怀疑讲述者的身份:没错,正是奥巴马先生。但今非昔比,在见识了AI一手主导的智力大爆炸之后,世人对“真实”的信念发生了动摇。尽管眼前这位头发花白的奥巴马显得如此逼真,评论区却乱成一团,人们根本无法就视频人物的真实性形成任何共识,即使制作者亲自出面澄清视频确系AI生成,网友的分歧非但没有减少,反而强化了。因为,当真相失去了标准,常识失去了基础,乱套就不再是乱套,而成为新常态。


仅仅半年前,除了一小部分业界精英,无人能预料AI的进化势头这么迅猛,以致我们那么快就必须面对Sora这种智力怪兽。我们既往的视觉经验、神经记忆,缺乏与之对应的身心储备,人们或多或少被砸晕了。好在我们体内似乎有一个淡定机制,一种恰到好处的迟钝,助我们适应一切,让生活得以继续。“Sora”作为世界模拟器,最让我们惊讶的,是对人类心智和想象力的模拟。你用寥寥数语提到脑海里的一个闪念,它就能以令人信服的镜头语言,展开大师级的流畅场景。在Sora之后,无论是否情愿,我们都必须养成一种新的习惯:对每一个看似可信的影像抱有警惕。在可见的将来,这份警惕有可能变得歇斯底里,我们将不是因为可疑才触发警惕,而是因为可信才加深怀疑。这不像是好事,这意味着一种底层认识论的倾覆。


好在,人间不会被一种方式所模拟,在Sora面世之前,人类也以自己独有的方式,模拟着世界。




Sora以电影般的影像对动感世界的华丽模拟,引出一个显而易见的对比:这份能力,擅长做梦的人类并不陌生。


在人类心智的幽邃之地,也潜伏着足与Sora匹敌的异能。在我们不知不觉、沉入梦乡之后,我们也能随随便便地拥有凭虚御风、穿梭时空的能耐。我们不知道今晚将做什么梦,我们无法策划和排练它,但我们随时会被惊得魂飞天外。值大梦初醒,我们秒归平凡,并以令人绝望的速度失去对梦境的记忆,我们注定无法找到可靠的释梦方法。若把梦乡视为一座蕴藏丰富的智力富矿,当下它仍处于沉睡状态。


我们知道,Sora的模拟不仅是一种算法成就,它的耗费也极其惊人。它的训练量需要数百万块高端GPU芯片提供支撑,它还依赖庞大的能源提供支持,那些看上去如此细腻丝滑的流畅影像,背后是一种国家级战略在协同发力。Sora的昂贵决定了它的稀缺。


对照自己的梦,我们轻易发现,在人类的大脑深处,这份能力并不稀缺。Sora的展示与我们梦中所见,差异固然明显,相似乃至神似之处也非常突出。Sora的模拟始于人类的提示,人类的梦境则不知出于何者之手,但说到影像的展开方式,两者高度相似。梦带领我们前往闻所未闻之地,我们梦中所见,既是现实的投影,也是现实的变形和扭曲,它从来不会原样复制。即使梦中获悉自己正前往熟悉之地,比如童年的家乡、当下的工作场所,醒来后也会觉出似是而非。具有影像饥渴的梦境,不屑机械复印我们的现实履迹,它每次都带领梦中人前往陌生之地。也就是说,我们梦中所见,站在影像角度,均是初次出现。如果Sora的影像品质值得人类尖叫,我们梦乡里的影像品质似也不应低估。依照Sora的操作原理,我可以愉快地假定,在我们的心灵深处,也深藏着相当于十万片GPU显卡协同运作的影像生成法力。因为,我们梦中的场景同样是连续和多彩的。当我们惊讶于Sora影像展示了连贯和从不掉帧的工程成就,我们也该给作为造梦师的自己竖个大拇指:我们的梦也从不掉帧,像素不低,且同样清晰流畅。Sora需要大把烧钱,我们只需眼睛一闭。


导演克里斯托弗·诺兰在《盗梦空间》里创造性地模拟了人类梦境。对照电影里的华丽场景,凡人之梦难免大有逊色,但那份壮丽、刺激、紧张和意外,我们或多或少都曾遇见,因而也能产生共鸣。为使角色有充足时间达成梦中使命,影片还提到一个有趣数据:现实中的5分钟,梦里可以感受为1个小时。该数据的学术价值待考,若姑信其真,它等于在说,大脑做梦时的运行速度,比清醒时快了20倍。继续拿Sora来类比,它说明,当我们变身“造梦者”,我们真的获得了类似高端GPU附体的潜能,我们凭清醒时并不具备的创意,源源不断地创造着令自己大惊失色的场景。


我们无法在醒后对梦境作出原汁原味的复述,我们记住的内容可能不足真实梦境的十分之一。早期梦学家(如弗洛伊德)为了获得更好的实验成果,会精确设定闹铃,以便在所谓“快速眼动阶段”把自己唤醒,第一时间逮住梦的尾巴。但成果并不明显,不管你清醒的速度有多快,梦境逃窜的速度总是更快,你记住的永远是一个低配打折版,你谈论的永远只是一些依稀影像,类似残山剩水。鉴于我们被剥夺了还原梦境的能力,当我们谈及梦的模拟,其实是在不公平条件下与Sora比较。谁知道呢,人类真实的梦境也可能无比绚丽,由于醒来是个祛魅过程,它腐蚀了我们的记忆,令我们无法评估自己的能量。


我就此询问了ChatGPT4(OpenAI公司的人工智能对话机器人),请它将Sora的能力与“人类在做梦中展示的想象力及构造动态影像的能力”进行比较。它礼貌地确认了我的困惑,承认两者存在可比性,但又着重强调“一些重要的区别”。它表示:


AI生成电影般的动态画面是基于其训练数据和算法,其创造性源头在于对大量数据的学习和模式识别。AI生成画面的过程是无意识的,它没有情感、欲望或目标,其生成的画面通常缺乏情感和深度。


人类梦境的创造则更多地受到个体的心理活动和情感体验的影响,因而更具独特性。


——近乎没说。实际上,真正的差别未必在此,人类对世界的模拟,另有一种与Sora截然不同的方式,值得在此郑重提及。




在Sora之前,梦乡之外,世界早已被语言里的意象充分模拟,那是人类独有的表达利器——比喻。


世界唯有通过比喻才能阐释,正如生食唯有经过炙煮才能食用。先秦诸子多为比喻大师,文字里跳动着“寓言”这一高品质比喻;古希腊人早早将比喻纳入学术研究,亚里士多德对比喻的分类定义,至今仍为人遵循;西塞罗宣称:“所谓有文采,就是要适度使用比喻。”在古罗马人塞涅卡笔下,比喻的泛滥甚至成为值得批评的文章乱象。


把比喻视为修辞之一,就像把人类定义为生命之一,或指出大象比耗子更重,属于一种犯罪级分类。论者用一种模糊精度的表象准确,达成对事实的歪曲。简而言之,比喻不应栖身于修辞的科目下,与对偶、排比、夸张等野心有限的手段并列,而必须开宗立派,自立山头。我见到对比喻最具精度的崇高定位,来自耶鲁教授哈罗德·布鲁姆,他以布道师的口吻宣布:“文学不仅仅是语言,它还是进行比喻的意志,是对尼采曾定义为‘渴望与众不同’的隐喻的追求,是对流布四方的企望。”


与Sora和梦境不同,比喻虽立足于视觉形象,比喻之成立却不必借助画师技法和透视原理。读者从比喻中感受到的形象,不必具有画面的完整和丰满,甚至不必体现为一个明确的形象,它是高度化约的,像一种超级留白,文学大师仅凭一个蜻蜓点水的暗示,就能让读者脑补出字面上阙如的形象,随即会心一笑。读者的脑补能力,当然与他们造梦师的天赋有关,人类通过数百万年的进化,大脑里已然积淀了海量的形象库存,只需一根文学的魔指轻叩,就能把它开启。


契诃夫小说《在催眠术表演会上》写催眠师当众施展法术后女人们的反应:“她们遇到他的目光都魂飞魄散,像挨打的苍蝇一样。”——这个泼辣的比喻,根本无法还原,读者却能第一时间领会笑点。作者确信没有读者会纠缠“苍蝇”的细节,遂补充道:“啊,女人的神经!如若缺了她们,这世上的生活该多么枯燥乏味!”


毛姆小说里的巴顿·特拉福德太太走在路上,“神气就像一个要做交配飞行的蜂王”——这比喻同样极为大胆,只有自视极高的文字老手才敢这么写,而读者旋即会意,他们耳边不必出现“嗡嗡”声,就能感受到太太的先声夺人。类似例子还有陀思妥耶夫斯基《群魔》里的地主夫人瓦尔瓦拉·彼得罗芙娜,作者写她“坐着,挺直了腰杆,就像一枝即将从弓上射出的箭”——仅凭一枝文学线条,一位神气活现的女人就在读者眼前跃然而起。这种魔法师般的模拟能力,Sora恐驷马难追。


为了检验AI的人性智慧,选择一些人类比喻作为提示词,或许不无趣味。我认为,美妙的比喻就像一种生物货币,只能在人类这个物种王国里内卷式流通,因为比喻看上去是如此阔略和逸笔草草,就像一行种族密码,只有谙熟该密码的族人,才能略无滞碍地与作者瞬间交接。当然,实验仍是必要的,即使我的条件极为简陋——我不具备使用Sora的资格。


我扔给某绘画AI的第一个问题是:


雷蒙德·钱德勒在小说《高窗》里曾这样形容:“两扇打开的窗户上挂着纱帘,一会儿飘进,一会儿飘出,活像一个没牙老人睡觉时的两片嘴唇来回噗噜。”——请以你的理解,画出作家眼里的窗帘。


——它完成了,好像那是小菜一碟。但水准也就那样,相当于百分制里的78分,但看不出达到90分的迹象。它能画出印象,但画不出感觉。缺了感觉,印象也就丢失了魂。


第二个提问是:王尔德在《没有秘密的斯芬克斯》里形容阿洛伊夫人驾到的场景,比喻很妙:“一看正是我苦苦找寻的那个人。只见她施施然步入客厅,就像一道镶着灰色蕾丝的月光”。请画出配得上这副月光的美女。


——它又火速完成了,一位合乎计算机美学的美女,身段完美,蕾丝和灰色都有所展现,但“月光”在哪呢?——“月光”里藏着一份暧昧,只有制作者的内心也有这份暧昧,“月光”才会水落石出。AI很诚实,它没有心悸,无力暧昧,人物也就任其乏味了。


最后一个问题,我问:苏联肃反时期,文学界死气沉沉,作家们担心被夜半的乌鸦车突然带走。一位作者使用了一个特别精彩的比喻:人们在路上走着,“死刑在他们的体内发光,像是白色的十字架”。——请你画出这份“特别”。


——知难而退永远不是它的品格,它从不缴械,但令我惊讶的是,它的完成度居然不错。它采用了木刻形式,通过呆板的建筑、踽踽独行的身影和投射在马路上的十字架倒影——闪烁着白垩的惨光,以及倾斜的街道所带来的压抑,它相当出色地传递出了这份恐惧。为它喝彩。当然,人类读者从比喻里感受到的绝望和惊悚,它无力传达。这份无力,未必缘于技术和算法上的限制,而是生物间的天堑鸿沟,弥合无望。




比喻是一种扭曲性表现,它呈示的形象,往往心态大于形态。比喻依赖大面积的留白、变形和省略,令事物脱离常态,让读者产生好奇或不适,进而于迷迷瞪瞪间被作者顺手俘获。


与修辞不同,比喻是对心智的劫持,而非寻常的修饰。修辞是美化,比喻是魔术;修辞提升效果,比喻改变本质。谁掌握了比喻,谁拥有了写作。每当作者想把意思表达得别致有力,他就会去琢磨比喻。比喻是文字的性感带,关联着作者意欲攫取的种种“言外之意”,它天生是不安分的,它是文字的酒精状态。一位作者想要展示自己的幽默、博学、修养,或可爱劲,他就会寻找比喻。一旦找到,几乎没有任何力量能让他放弃——那需要一种“坐怀不乱”的文字定力。毛姆嘴上嚷嚷着“我们知道追求生动会是件多么致命的事”,笔下却从不含糊,宁愿为了生动而放弃一切。哈罗德·布鲁姆郑重告诫:“高度形象化语言是荣耀的,也是危险的,因为我们永远不可能确定如何对它所有可能的意义和它对我们的作用加以限制。”然而,不敢追求这份危险,也就失去了语言的荣耀。


人类深嵌在比喻里的繁复动机,主要不是为了模拟世界,而是在笔墨秀场里表演自我,彰显独特。钱钟书说:“盖取譬设喻,寓言十九,乃善说之修词,非真知之析理。”AI若要在这个领域与人类竞争,恐怕首先不是提升算法和购置更多的GPU,而是改变自己八风不动的机械属性,使自己在性情上与人类接近趋同;它必须试着参与人类的欲望,使自己的文字见机行事地服务于真诚、戏谑、歪曲、打岔、卖弄、炫耀、嫉妒等各色动机。——这是它不可能做到的。但是,若AI将自己的职能限定于“真知之析理”,那诚然非常高贵,却也失去了在比喻的秀场与人类一较短长的机会。


诗人奥登说:“毋庸置疑,思想的交融如同两性的交配一般迷人。”——这个比喻不仅“迷人”,还有点崇高,但其中的画面甚至不应成立,只有读者的脑海里拒绝涌现那个场景,连“点到即止”都没有,这份“迷人”才会兑现。这是一种止于意会的比喻,美感始于形象的离场。这正是人类独有的模拟术,唯比喻可以办到。若我们怂恿Sora启动虚幻引擎(Unreal Engine),对之精雕细镂,奥登或会后悔作此比喻。如你所知,奥登是同性恋者,他对两性“交配”的推崇,可能不像他说的那么强烈。


一个让人摸不着头脑的比喻,有时还会使意味倍增。身世玄幻、文笔高超的一战英雄T.E.劳伦斯,在车祸前一周致友人的信里,如此描述自己的感受:“我想,树叶从树上落下之后的感觉一定就是我这样。”——“这样”到底是“哪样”呢?别说AI,人类也捉摸不透。但我们能欣赏这份玄虚里的美妙,AI只能抓瞎、干瞪眼。


先秦老子当年留下一句“上善若水”的恢宏比喻,气象万千,隐然有种上帝发表重要讲话的气势,我们若拒绝承认它的真理性,还会萌生冒犯感。但今人认为,尽管“善”与“水”的道德关系一言难尽,现实联系却是丝毫谈不上,纯属子虚乌有。虽然如此,在这个惊人比喻出现之后,当我们想要就中华文明说上几句,似乎总能感受到这股源自老子的汤汤水气,在中华风物间微微晃荡。仅仅一个比喻,就有这等法力。


Sora的模拟将止步于此,若贸然进入人类的世袭领地,AI也可能像“挨打的苍蝇”,四散奔逃。在人类对比喻的迷恋机制里,恐怕有一种抗拒算法的属性,阻止AI大举入侵。这未必证明人类有多棒,但肯定能证明人类有多独特。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景市场观察|消费创业的三种结局,你是哪种?PPT的时间轴别只会画箭头了!这三种方法,好用到爆!美国法学的三种学位LLM、JD、J.S.D【上海赛区】圣华紫竹、梦沃未来、上海诺美获得胜利!今日arXiv最热大模型论文:何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏见油价冲150美元、欧央行或被迫加息!这家投行推演了伊以冲突的三种可能场景苹果手机或搭载ChatGPT,官方回应理想L9误识广告致追尾,丰田回应与比亚迪合作,董明珠回应代言格力,这就是今天的其他大新闻!“I AM NOT FREE”“新无知”的三种表现老海归的两个《归来》Fate: the accident of birth of growing to 6 feet, 8 inches tall通过这三种方法,遇见更好的自己疫苗和AI是兩條賽道小思考丨左右一个人成长的三种力量偏头痛女性的困境与答案——直播回忆文字版【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!金融行业 | 银行分红频率与比例的境内外对比——银行机构动态跟踪2024年第七期和路雪、梦龙被“抛弃”?巨头宣布:裁员7500人!去年卖冰淇淋收入618亿Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型BB鸭 | 小米首款竖向折叠手入网;新款诺基亚3210售罄;丰田回应与比亚迪合作;《网络反不正当竞争规定》发布百名无证移民冲破铁丝网 非法越境与警卫冲突你家的饮食开销,哪三种必须省,哪三种必须花?爱美丽小同学在跑坡的时候在想些啥人生的三种境界(精辟)温哥华出发4日游:班芙国家公园+哥伦比亚冰川+甘露市 露易丝湖、梦莲湖、弓湖、水怪湖 一晚班芙酒店 缆车 雪车5-10月BAA4何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏置?植物中的比喻(下)丨英语表达进阶KNDS集团的三板斧,三种新型坦克既遵循传统又追求创新​与比尔盖茨家为邻 华盛顿湖畔千万级豪宅长什么样?“不要去制造寄宿的需求” | 农村寄宿制学校发展的困境与突破外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生文艺复兴基金的三种策略GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界中国车企逃出内卷的三种路径
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。