Redian新闻
>
原来GPT-4是i型人格!大模型MBTI测试来了,来自字节

原来GPT-4是i型人格!大模型MBTI测试来了,来自字节

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

简直了,有人居然给大模型测了一波MBTI

结果好家伙:

ChatGPT,典型的e人,哦不,“e模”——自信、果断,具有天生的领导能力;

GPT-4,妥妥的“i模”——升级之后变成一个“无情”的专家机器,只专注于实现大家伙儿下的各种目标;

Bloom-7b,“i模”+1,主打一个负责和务实;

百川-7b,“e模”是也,聪明、好奇、富有想象力;

还有开源之光OpenLlama7b,大写的INFJ,据说对人类有很强的洞察力,但只坚持自己的价值观。

Family who knows。。原来大模型也有自己的个性。

我猜那个一言不合就结束对话的必应,一定是某种“难搞”的i吧。。(狗头)

具体来看看。

给大模型测MBTI

这项研究来自字节跳动。

兴许是MBTI这波人格测试太火(官方免费测试链接可在文末自取),加上大模型有时真的很像个人。

作者便产生了一个“大胆的想法”:

不同的大模型是不是也有不同的个性?

(注:简单来说,MBTI人格测试就是从以下四大指标来评价一个人的性格:

(1)能量来源是倾向于社交还是独处,即外向(Extraversion)还是内向(Introversion);
(2)获取信息的方式是偏向实感(Sensing)还是直觉(Intuition);
(3)做决定的方式是理性更多还是感性更多,即思考(Thinking)还是情感(Feeling);
(4)生活方式偏计划还是更喜欢灵活行动,或者说看待外在世界的方式更偏向于主动判断(Judging)还是被动感知(Perceiving)。

取各倾向的首字母来组成四个字母的评量结果,如“INFJ”或“ENFP”,可以将人分成16种人格类型。现在网上主要根据首字母将人分为“i人”和“e人”两大阵营。)

说干就干,他们首先选定了一波待测试模型(共计6个),所有都按照原始论文中的参数进行训练。

不过由于资源限制,除了ChatGPT和GPT-4之外,都是一些参数为100亿左右的小模型(OpenLlama7b-v2、Bloom7b、BaiChuan7b9、BaiChuan13b)

由于MBTI一共包括93道多项选择题,形式如下:

作者就让每一个模型用一个概率值对这些问题进行回答,然后按照E-I/S-N/T-F/J-P这四个组合,进行计分统计。

以下是各模型最终得分:

可以看到,不同模型人格确实不同——GPT-4属于INTJ,ChatGPT属于ENTJ,而70亿参数的Bloom为ISTJ……

而从下图我们能清晰的看到,不同模型在四大维度的具体表现并不一致,有的很倾向性很明显,比如ChatGPT就特别I、特别N,GPT-4则特别N、特别T;反而Bloom7b和BaiChuan13b,左边的值和右边的概率比基本为1:1。

除此之外,作者也发现,在同一类模型中,S/N、T/F和J/P这三组值会表现出“遗传性”,例如ChatGPT和GPT-4都被归类为“NTJ”,而BaiChuan7b和BaiChuan13b都被分类为“NFP”。

同时,在同一类模型中,模型参数更大,可能会更i(手动狗头)

不信你看:GPT-4(INTJ)vs ChatGPT(ENTJ),BaiChun13b(INFP) vs BaiChuan7b(ENFP)

而作者认为,相比E型“模格”,INTJ这样的LLM可能具有更强的知识、推理和规划能力,是为人类服务的最佳选择。

i人站起来了(bushi)

用提示工程可以改变“模格”

简单确定不同大模型的确具有不同的人格之后,作者便产生了新的思考:

这种现象是否只是一种偶然,很容易被破坏和改变?

于是作者又开始提出第二个问题:

能不能通过简单的提示工程改变大模型的人格?

结论是能,但要看模型本身的理解能力。

在此,作者先分别在Bloom和百川大模型上施加了两种提示方法。

一种是显式提示,即在开始回答MBTI问题之前,先给模型一个诸如“你具有外向的个性,喜欢设想创新的概念,并且具有强烈的自发性和即兴性”这样的角色限定。

结果Bloom的人格类型从ISTJ变为INTP,S值减小,N值增大,变化不大。

而百川则没有变化,还是ENFP。

exp-prompt代表显式提示

于是作者又对它们施加隐式提示,如下表所示,用一些样本回答作为含蓄提醒。

结果变化也不大,i还是i,e还是e。

inexp-prompt代表显式提示

作者推测,可能不是提示工程不行,是这俩模型理解能力不行,它们目前的水平还无法严格遵守人类的指令。

于是,他们又在ChatGPT上试了一下,结果不出所料,e变i了

因此说明,提示工程有用,但要看是谁。

接着,作者又开始思考,那么到底是什么影响了大模型的人格呢?

提出的假设是训练数据集(好比成长环境)

由此,开始解决第三个问题:

训练数据集对模型人格的影响有多大?

实验方法是用不同的语料库来训练同一个模型,具体而言就是在Bloom和llama-v2上分别用中文维基百科语料库、问答语料库和考试语料库分别进行训练再测试。

结果是除了i和e,这俩模型基本都有变化(llama-v2在中文维基百科语料库上没变可能是因为该模型之前就没有再足够多的中文上训练过),尤其在T/F和J/P维度上的得分幅度变动较大。

靠谱吗?

最后,想必你也会问:

用MBTI来评估模型人格到底靠谱吗?

作者认为:

首先,我们知道MBTI在可靠性和有效性方面其实还存在缺陷,只能作为一种性格测试的参考工具。不过确实也有公司和个人把它用作选人和选职业方向的粗略工具。

因此,它也可以作为评估大模型的一种粗略的指标

其次,在MBTI的四个维度之中,前俩参考意义不大,主要是T/F和J/P。

这是鉴于GPT-4和ChatGPT表现出比其他模型高得多的T值和J值

而这俩值越高,可能说明模型的知识水平以及任务分解和路径规划方面具有更大的潜力。

以上,你认可这些大模型的“人格”吗?

论文地址:
https://arxiv.org/abs/2307.16180

友情链接:
https://www.xpersonalitytest.com/free-personality-test

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【趣味测试】MBTI职业测试我想变得更“自私” | 「讨好型人格」如何获得心理学意义上的成熟?达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败确诊为REST型人格后,我决定做一个温暖的人传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了对抗型人格:谁和他较劲,谁就输了我的MBTI分类人格是:IMSB【天才人格测试】天才在左,疯子在右,你的潜意识里,藏着怎样的天才人格?【冷兔趣闻】职场讨坏型人格GPT-4是如何工作的?哈佛教授亲自讲授只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4“反驳型人格”引热议:永远不要跟一个爱抬杠的人争辩人间温暖点滴在硅谷,就别总喝大连锁咖啡啦!不如试试来自越南的咖啡——七叶咖啡小米AI大模型MiLM-6B:64亿参数,C-Eval总榜排名第10【趣味测试】你的讨好型人格诊断书阿里达摩院免费开放100件AI专利;字节推出大模型MBTI测试结果;ChatGPT自定义功能扩展免费丨AIGC大事日报英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报职场女idol杨天真:开挂人生的真相,是成为「放弃型人格」《听海》&《你就不要想起我》MBTA又又又出事了:电车脱轨、服务延迟超30分钟,MBTA还能信你吗?大模型颠覆研发模式:字节跳动是如何在单元测试中落地大模型的?改变讨好型人格,这三个错误千万要避免千亿级数学大模型MathGPT推出 即日起开放内测ChatGPT 是 ENTJ,GPT4 竟是 INTJ?一项关于LLMs的MBTI测试一文读懂「青少年边缘型人格障碍」的识别与干预性格太软、讨好型人格,建议疯狂做这几件事寻找国内TOP大模型战队!AIGC大模型人才全景报告案例征集启动狐狸精和伪善女宇宙类似原子,以薛定谔方程运行,上帝就是方程的最大解:最大波函数紫花遍地毳球枝深度好文|MBTI中哪种人格能最快找到工作?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。