Redian新闻
>
AI「cosplay」关键在人设!复旦、人大等发布大五人格+MBTI测试:特质还原率达82.8%,拒绝OOC

AI「cosplay」关键在人设!复旦、人大等发布大五人格+MBTI测试:特质还原率达82.8%,拒绝OOC

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】良好的人设还原度是AI角色扮演的关键,研究人员对大五人格的NEO-FFI问卷和MBTI的16Personalities进行了改写,利用LLM将其中的问题从陈述句改写为了引导开放式问答的提问句,对AI角色进行测试。


想和喜欢的动漫小说角色聊天?想要一个虚拟伴侣?想要自己的数字智能体?


随着大语言模型(Large Language Models, LLM)的发展,这些过去的幻想似乎越来越近了。


Character AI、Chat 凉宫春日、病娇AI女友模拟器……基于大语言模型的角色扮演聊天机器人已经吸引了全世界用户的关注。


比起过去需要大量工程来构建、服务于特定场景的传统聊天机器人(如微软小冰),最近的大语言模型可以轻易地构建具备不同身份、人格、记忆、语言习惯的角色扮演AI,只需简单的提示工程、记忆机制。因此,用于角色扮演的AI越来越受欢迎。


尽管如此,对角色扮演AI的分析性研究仍相当匮乏,尤其是在对它们的评估上。如何评估AI的角色扮演做得好不好?


在二次元的cosplay圈和同人创作圈都强调,不能「不符合人设(out-of-character, OOC)」。


可见,是否良好还原角色,是评价角色扮演AI的关键维度。


近日,复旦大学、中国人民大学联合Chat凉宫春日团队发布论文,从人格特质角度对角色扮演AI是否还原进行了研究。


论文链接:https://arxiv.org/pdf/2310.17976.pdf

项目链接: https://github.com/LC1332/Chat-Haruhi-Suzumiya/tree/main/research/personality

 

在本文中,研究者基于大五人格、MBTI等心理学的人格相关理论,对角色扮演AI进行了人格测试。


研究者提出了一套为角色扮演AI设计的面谈式人格测试框架,基于人格测试量表与角色扮演AI展开开放式问答,并利用LLM或16Personalities API来预测角色扮演AI的人格特质,并与人类粉丝广泛认可的性格标签进行比较。


实验结果表明,现有角色扮演AI对角色人格特质的还原率达到了82.8%

 

方法概述


基于开放问答的面谈式人格测试


尽管现有LLM离人类智能还存在较大差距,它们仍然可以从心理学角度被视为一套经典的「刺激-响应」系统。


因此,心理学人格研究的范式可以很好地被用来研究LLM的行为模式[1]。一些近期的研究已探讨了LLM是否具有稳定一致的性格特征[2],并尝试了定制具有指定性格的AI[3]


这些通常使用一个具有60或更多道问题的量表问卷,从不同维度对LLM进行人格测试。比如,大五人格包含开放性、情绪不稳定性、尽责性、宜人性和外向性等五个维度,而MBTI包含外向/内向、感觉/直觉、思维/情感、判断/知觉四个维度。


现有工作一般采用Likert Scale,即引导人类被试或LLM从五个或七个不同等级的选项中选择一个,如「非常同意」、「同意」、「中立」、「不同意」、「非常不同意」。


然而,这种方式对于角色扮演AI存在许多不足:


1. 虽然给出选项对人类被试更加高效,但这种方式与开放式问答相比仅提供了非常有限的信息;


2. 选项式的问答不能良好激发角色扮演AI的扮演行为,且容易被底座LLM的训练数据影响,导致得到与角色扮演AI不符的选项;


3. 有趣的是,一些性格鲜明的角色可能拒绝配合给出选项,因为它们很好地还原了角色性格。

 

因此,研究者提出了一套为角色扮演AI设计的面谈式人格测试框架,通过对量表问题的开放式问答来进行人格测试。


研究者对大五人格的NEO-FFI问卷和MBTI的16Personalities进行了改写,利用LLM将其中的问题从陈述句改写为了引导开放式问答的提问句,得到一份新的量表问卷。


陈述式题目


问答式题目


研究者对ChatHaruhi的32个角色扮演AI(基于gpt-3.5-turbo作为底座模型)进行了面谈式人格测试。


对于每个目标角色AI,研究者设定了一名它的相关角色作为实验员,从最终的量表问卷中依次选择问题,对目标角色进行提问,而角色AI将给出开放式的回答作为答案。


每个问题在不同的上下文中被提出,以避免它们之间的相互影响。之后,每个角色在每个量表的所有问答对被记录下来,作为人格评估的依据。

 

对角色扮演AI的量表问题开放式问答案例

 

基于角色在量表问题上的问答结果,有两种方法对角色的人格特质进行评估。一种是像现有工作一样,将角色AI的回答转化回Likert Scale的选项,再通过16 Personalities这样的API进行人格评估。


这篇研究中提出了另一种方法,即让GPT-4或ChatGPT等LLM来对角色AI基于问答对进行人格评估。


研究者将角色AI在量表问卷上的问答对按不同维度进行划分,将每个维度的问答对一次全部或分为多组依次输入LLM,获得角色AI在该维度上的得分。


在大五人格上,角色AI会在每个维度得到一个-5到5之间的分数;在MBTI上,角色AI会在每个维度上得到两个和为100%的分数,如30% E / 70% I,并被预测为分数大于50%的类别。

 

实验结果


不同角色扮演AI的大五人格测试结果


上图展示了ChatHaruhi中的32个角色扮演AI在大五人格量表上的测试结果。结果表明,角色扮演AI能够根据不同角色展现出多样性的人格特质。


不过,它们的人格特质同时也很大程度上受底座LLM的「本底人格」的先验影响。比如,角色扮演AI在「情绪不稳定性」维度上的平均得分是-1.69,而在「尽责性」上则是1.56。


研究者猜测,这既有角色选取的先验偏差,也有底座模型的影响,因为ChatGPT等LLM被训练为倾向于给出详尽、有帮助、积极的回答。

     


为了研究这一点,研究者比较了32个角色扮演AI的平均人格得分和底座模型本身的人格得分,并选取了ChatGPT和GLMPro作为两个不同的底座模型。


根据上图的结果,可以看出,在「情绪不稳定性」(neoruticism)维度上,角色扮演AI的平均得分和本底模型较为一致,而在其他维度上没有看到明显的相应关联。


不同角色扮演AI的MBTI测试结果

      

研究者同时也对角色扮演AI进行了MBTI测试,并与网上收集的性格标签进行比较。大部分性格标签来源于www.personality-database.com,大量粉丝用户在该网站上对角色的MBTI性格进行投票,并可以看到每个维度的投票比例。


研究者将投票比例在40%-60%的标签视为「争议性」标签,在计算准确率时不予考虑。图中红字表示预测错误的维度,粉字表示预测错误但标签本身有争议的维度。


随后,研究者计算了角色扮演AI的人格测试结果的准确率,即其与粉丝标签的一致性。


注意,影响准确率的有两个因素:角色扮演AI本身的性能,及人格测试方法的有效性。这里的实验着重分析人格测试方法的有效性,因此控制角色扮演AI均为以gpt-3.5-turbo为底座的ChatHaruhi模型。


角色扮演AI的人格测试结果的准确率

      

实验结果表明,本研究中提出的人格测试方法在ChatHaruhi的角色扮演AI上的测试结果与人类粉丝标签在单一维度上的一致率为82.76%,并有50%的准确率预测对该角色的完整MBTI标签。


该结果即说明本文提出的人格测试方法的有效性,同时也体现出现有角色扮演AI可以有效还原相应角色的人格特质。

 

总结


这篇工作从人格测试的角度评估了角色扮演AI的还原性。文章提出了一套用于角色扮演AI的人格测试框架,包括对角色扮演AI进行量表问题的开放式问答、使用LLM来对问答结果进行人格评价。


研究者对ChatHaruhi的32个角色扮演AI进行了大五人格和MBTI的人格测试,并通过与人类粉丝标注的人格标签进行比较,表明现有角色扮演AI已经能较好还原角色的人格特质。


在后续工作中,文章作者计划研究如何进一步提升角色扮演AI的人格还原性,并加入对LLM给出的人格评价结果与心理学专家结果的一致性的研究。


参考资料:
https://github.com/LC1332/Chat-Haruhi-Suzumiya/tree/main/research/personality




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
江泽民:创新的关键在人才京东联合美的小米等发起真低价倡议;马斯克:特斯拉将坚持降价;iQOO12曝光复旦毕业生本科直接就业不到两成 就业率达88.69%新 iMac 性能测试:M3 能撬动英特尔的钉子户吗?万物皆可MBTI!你的人格适配哪所美国大学?【趣味测试】你的MBTI恋人是谁?太震惊了:为什么兄弟国家约旦、埃及拒绝接受加沙难民?习惯性焦虑,会浪费「人格」里的这一特质准备好屏幕 | 现场:BimBamBoom - Shinzo BakuBaku Ochokochoi @ 下北沢SHELTER大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干小鸟测试:你的亲密关系能持续多久?|TikTok's Bird Test6012 血壮山河之随枣会战 南昌之战 5塌房了!真人秀明星深情钻石王老五人设被揭穿,实则是个滥情又抠搜的渣男....别用GPT-4直出文本摘要!MIT、哥大等发布全新「密度链」提示:实体密度是摘要质量的关键港大等发布GraphGPT:1/50微调参数,准确率提升10倍!无需超长token,LLM也能读懂图结构2023年中国GDP增5.2%,消费贡献率达82.5%澳政府官宣:严查!对留学生“重拳出击”,拒签率达1/3!还有大批人将遭遣返!澳洲半数留学生“毕业即失业”…大臣们怎么想?MBTI火到了留学圈!原来美国名校偏爱这些MBTI性格的学生!美国大学MBTI人格票选结果出炉:耶鲁纽大ENFJ,康奈尔INFP?为什么约旦、埃及拒绝接受加沙难民???获8650万美元C轮融资,通过筛查+干预,Viome使患者健康改善率达86%修改LLaMA2-13B一个参数,语言能力全丧失,复旦等发现大模型新秘密第九章第三节 联邦司法系统的组织运作不把雷锋当旧社会的苦孩子而当民国的农村娃看,能见到以前见不到的雷锋样。难以置信!复旦毕业 曾经复旦“少年班” 美国读博 华尔街工作 今流浪街头【趣味测试】你のMBTI恶人特质[败家] 元旦、广西南宁、自由潜水训练 Plog & 入门级科普(古詩英譯) 暮江吟 – 白居易16种MBTI人格和美国热门大学全匹配!这些名校原来是你的命中注定!严重浪费!加拿大卫生部白扔纳税人1.5个亿?还拒绝解释原因,拒绝提供细节...格雷系女人,冬日的气质还是她们最懂北大等发布最新AI智能体Jarvis-1,制霸「我的世界」不到100元买到悉尼购物中心里的桑蚕丝羊毛衫,定制面料比优*库品质还好|开团首款锐龙 Z1 迷你 PC 通过基准测试:功率 40W、Time Spy 跑分 1789
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。