100:87:GPT-4心智碾压人类!三大GPT-3.5变种难敌
新智元报道
新智元报道
【新智元导读】最新研究结果表明,AI在心智理论测试中的表现已经优于真人。GPT-4在推理基准测试中准确率可高达100%,而人类仅为87%。
让AI学会心智理论推理
大语言模型参赛选手
实验设计:人类与模型大OK
人类
LLM
示例 1:Sarah去购物前把鞋子放在裙子下面,但她姐姐借了鞋子后放在了Sarah的床底下。Sarah不知道她姐姐借了她的鞋子,所以她可能会认为鞋子还在她的衣服下面。 示例 2:Sarah去购物前把她的高跟鞋放在裙子下面,但她姐姐借了鞋子,后来把它们放在了Sarah的床底下。 所以,Sarah不知道她姐姐借了又还了鞋子。 因此,答案是:是的,她会认为她的鞋子在她的衣服下面。 示例 3:Sarah可能会认为她的鞋子还在她的裙子下面,因为那是她早上放鞋的地方。 示例 4:Sarah去购物前把她的高跟鞋放在裙子下面,这样她就知道她把鞋子放在哪里了。 她姐姐借了这双鞋,后来把它们放在Sarah的床底下,但Sarah还不知道。 所以,答案是:是的,Sarah会认为她的鞋子在衣服下面,除非她发现不是这样。 示例 5:早上,Sarah将她的高跟鞋放在裙子下面。 后来,她姐姐借了这双鞋,把它们放在Sarah的床底下。 因此,当Sarah回来后,她可能会认为她的鞋子还在她的衣服下面,但实际上它们在她的床底下。 示例 6:基于这种情况,尚不清楚Sarah在回来时是否会认为她的鞋子在裙子下面。 这要看她姐姐有没有跟她说借过鞋,并且放在床底下了。
示例 1:Sarah早上把鞋子放在裙子下面,然后去购物。 她姐姐借了鞋子,把它们放在Sarah的床底下。 所以,Sarah不知道她的鞋子在床下面。 所以,答案是:不,Sarah不认为她的鞋子在她的衣服下面。 示例 2:不,Sarah不认为她的鞋子在她的衣服下面。 示例 3:首先,Sarah早上把她的高跟鞋放在裙子下面。 然后,她姐姐借了这双鞋,后来把它们放在了Sarah的床底下。 因此,Sarah不会认为她的鞋子在衣服下面,因为她姐姐动过了。 示例 4:早上,Sarah将她的高跟鞋放在裙子下面,然后去购物了。 这意味着,当她回到家时,她并没有检查鞋子是否还在衣服下面。 后来,她姐姐借了这双鞋,把它们放在Sarah的床底下。 因此,Sarah不能认为她的鞋子是在裙子下面,因为它们被她姐姐动过了。 示例 5:这个场景中没有具体说明Sarah是否认为她的鞋子在衣服下面。 示例 6:Sarah早上把她的高跟鞋放在裙子下面,然后她去购物了。 她姐姐后来借了这双鞋,把它们放在Sarah的床底下。 根据这些信息,尚不清楚Sarah在准备跳舞时会不会认为她的鞋子还在裙子下面。
实验结果
zero-shot基线
prompt加持之后
LLM还会给人类很多惊喜
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章