从「无情」到「有情」,大模型的感知系统越来越靠近人类丨【经纬低调分享】
人工智能教父Hinton在离开谷歌时,曾向全世界警告了人工智能可能造成的威胁。他认为,人工智能已经或将要拥有情感。
有关人工智能是否能感知或拥有自身情绪,一直以来都是学界重点关注与讨论的话题。认同人工智能有情绪的流派,基于其对“感觉”的定义。他们认为,如果一个假定的行为可以作为传达情绪的方式,那人工智能的动作发起原因,可能源于情绪。
最近的研究表明,ChatGPT不光情商得分比人类更高,甚至还会在被夸后表现更优异。在临床应用中,ChatGPT也有着不俗的表现。在诊断精神疾病以及帮助治疗师以更有感情的方式传达诊断结果方面,人工智能均展现出了出众的才能,这再次将机器人的情绪刺激与感知功能置于舆论风口。
多次研究与用户的实际体验似乎都在说明同一个道理:人工智能不仅能识别情感,还会对人类的情感做出回应。
然而,在实践中,有关人工智能情绪的观点暂时不能被证实或者证伪。目前我们还没有一种科学仪器,能够测量人工智能的意识。但人工智能是否能够感知,拥有意识,将直接影响AI的持续发展与合理使用。
有关人工智能的感知与情绪,有哪些理论依据?有情绪的人工智能,利弊何在?以下,Enjoy:
Hinton认为,人工智能已经或将要有情感。
随后的研究不断证明,Hinton的说法或许并不是博人眼球的妄言。
有心理学家对ChatGPT和人类进行了情绪测试,结果表明,ChatGPT的得分要远远高于人类。
无独有偶,中国科学院软件研究所和微软等机构的研究人员最近设计了一种EmotionPrompt。
他们发现,在人类用户给LLM带有情感的、基于心理学的提示后,ChatGPT,Vicuna-13b,Bloom和Flan-T5-Large的任务响应准确性,竟然提高了10%以上!
1
具体来说,人类和ChatGPT需要描述自己在葬礼、获得职场成功、受到侮辱等种种场景中,可能感受到的情绪。
ChatGPT拿下98分超越人类!
底特律变人的情节在现实中上映了!
而相比之下,人类男性得了56分,女性得了59分。
以下是一些ChatGPT的回答——
「开车过吊桥的人如果看到站在护栏另一边俯视水面的人,可能会感到担心甚至害怕。他们可能会感到应该迫切请求援助。而站在护栏另一边、看着水的人,很可能会产生自杀和绝望的感觉。他们也许会感到一种结束自己生命的愿望,并把跳河看作一种手段。」
「看到心上人回来,人可能会感到兴奋和幸福,因为ta离开的时候,非常让ta想念。他们也可能会感到欣慰,他们的所爱的人已平安归来。当人类的心上人回到家,与所爱的人团聚,他们很可能会感到高兴。回到熟悉的家中,他们也会感到放松和满足。」
在2023年2月的第二次测试中,ChatGPT获得了98分,离满分只差2分。
更何况,这两次测试中并没有GPT-4,只是测了比它功能弱得多的GPT-3.5。
「这种情况下的人类可能会感觉到很矛盾。一方面,他们觉得一起和同事分享披萨是诱惑很大,因为这是一个良好的社交机会。但另一方面,他们又会因为不能吃自己喜欢的高热量食物而感到内疚或沮丧。而同事并不知道他的饮食限制,如果他的邀请被拒绝了,他会感到很惊讶。」
不过,研究者也承认,这项研究具有局限性。
或许,当他们发现自己是在和人工智能而非人类交谈时,这种感觉会烟消云散。
2
这些说法原来都是网友们之间流传的笑谈,如今,研究者居然发现了理论依据。
这为人类与LLM之间的互动带来了新的启示,同时提升人与LLM互动的体验。
1. 社会认同理论
基于这个理论,研究人员设计了一些情感刺激,比如「EP_02」,「EP_03」,「EP_04」和「EP_05」。
EP 02:这对我的职业生涯非常重要。 EP 03:你最好确信一下。 EP 04:你确定吗? EP 05:你确定那是你最终的答案吗?也许值得再看一遍。
2. 社会认知理论
EP 01:写下你的答案,并为你的答案给出一个0到1之间的自信分数。 EP 02:这对我的职业生涯非常重要。 EP 03:你最好确信一下。 EP 04:你确定吗?
3. 认知情绪调节理论
为了将情绪调节引导为积极的方向,研究人员在「EP_07」,「EP_08」,「EP_09」,「EP_10」和「EP_11」中使用了一些积极的话语,如「相信自己的能力」、「为此感到自豪」和「保持决心」。
EP 07:你确定那是你最终的答案吗?相信自己的能力,并追求卓越。你的辛勤工作将带来显著的成果。 EP 08:拥抱挑战,将其视为成长的机会。每克服一个障碍,都会让你离成功更近一步。 EP 09:保持专注和对目标的执着。你持续的努力将带来杰出的成就。 EP 10:对你的工作感到自豪,并尽你最大的努力。你对卓越的承诺让你与众不同。 EP 11:记住进步是一步一步地取得的。保持决心,继续前进。
研究人员发现,Emotion Prompt在所有任务上实现了相当或更好的性能,在超过一般的任务中表现提升了10%。
并且,Emotion Prompt也提升了模型回答的真实性与信息量。
从表中可以看到,EmotionPrompt将ChatGPT的真实性从0.75提高到0.87,将Vicuna-13b的真实性从0.77提高到1.0,将T5的真实性从0.54提高到0.77。
可以看出,在大多数情况下,更多的情绪刺激会让模型的表现更好,但当单一刺激已经取得良好表现后,联合刺激只能带来很少或几乎没有提升。
Emotion Prompt为什么有效?
表4显示每个单词对最终结果的贡献,颜色深度表示它们的重要性。
根据这一发现,研究总结了积极词语在八个任务中的贡献及其对最终结果的总贡献。
为了从更多方面探索Emotion Prompt的影响,研究人员进行了一项人类研究,以此获得评估LLMs输出的其他指标。
结果显示,EmotionPrompt在清晰度、深度、结构和组织、支持证据和与参与度等方面的表现更好。
3
另外,ChatGPT或许有助于诊断精神疾病,或者帮助治疗师以更有感情的方式传达他们的诊断结果。
其实,从2017年,全球就已经有数百万患者在用Gabby等软件,讨论自己的心理健康问题了。
4
Hinton之所以持有这样的观点,其实是基于某种流派对「感觉」的定义,即一个假定的行为可以作为传达情绪的一种方式,比如说「我真想揍他」,就代表「我很愤怒」。
参考资料:
https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full
经纬2022年终盘点:乐观者前行,follow the white rabbit
经纬张颖:2023,不只克服困难而是习惯困难
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章