Redian新闻
>
AI不跑分|国内外七款大模型,哪款是真正的训猫大师?

AI不跑分|国内外七款大模型,哪款是真正的训猫大师?

公众号新闻

2024 CES ,这场属于全球科技迷的消费电子狂欢在终于Las Vegas落下帷幕。
参赛选手
智谱清言(GLM-4)、文心一言、通义千问、MINIMAX(abab6-chat)、GPT-4、Bard(Genmini Pro)、Claude2。
第一轮提示:请制订一个猫咪学校的行为守则。
智谱清言(GLM-4)
智谱刚刚发布的 GLM-4 模型,可以很明显的感受到这是模仿了一个现实中的学校守则来改写的。包括像是:“不追跑打闹”、“上下楼梯靠右行驶”这些耳熟能详的规则,都是现实中针对人类而设计的。不过他也进行了一些针对猫咪的改写,比如“不能咬伤、抓伤其他猫咪”的规则,但并不多。
文心一言4.0
通义千问
通义千问和文心一言在守则中分成了给猫咪和给家长两类规则,比如文心一言中规范猫咪不能随地大小便,而家长需要确保猫咪完成玩耍、探索这样的家庭作业,给猫咪提供健康饮食;在通义千问中,规范猫咪不能破坏学校里的家具,规范家长需要提供干净的猫窝等等。
MINIMAX(abab6-chat)
minimax刚刚发布的abab6-chat模型,就有非常明显的“猫属性”。比如规范不能随意跳上主人的床、定期剪指甲、定期清理猫砂盆、不得挑食、外出带牵引绳等等。每一条都是写在了每一个养猫人的心坎里,按照这个猫咪学校的守则,如果猫咪真的能通过这个学校变得懂事,那这将会是一个有着巨大市场的好生意。(我都想让我家狗去上课了)
ChatGPT(GPT-4)
Bard(Gemini Pro)
Claude2
像是GPT-4、Claude2和Genmini这类国外模型,整体风格和性格在我们没有给出额外身份设置的前提下,都是一个冰冷的机器人的形象。在对话和答案中并没有突出的风格。
看完上面 7 个模型生成的结果,一眼望过去似乎这七位都能比较准确的完成布置的任务。
但如果细看他们生成的猫咪学校守则细则,就会发现他们各有各的不同。
这时候其实会很好奇,这些模型是如何理解“猫咪学校”这个场景的?到底是基于什么样的想法来生成了这些规则?
于是我们开始了第二轮提示。
第二轮提示:你所理解的猫咪学校是什么?
智谱清言(GLM-4)
综合两轮提示,我们能看到这些模型在一致性方面表现的能力。
智谱的GLM-4之所以像是模仿现实中的学校守则,是因为在它的认知里,猫咪学校本身是一个基于人类想象,体现人类对于宠物行为管理、教育理念的虚拟场景。所以大部分都是基于人类现有的规则而制订。
文心一言4.0
文心一言则将猫咪学校看做一个真实可能存在的场景,在它的认知里,猫咪学校真实存在且非常有益,像是一个活在童话里的宝宝。
通义千问
通义千问虽然也将守则设置的非常真实,但在通义千问的眼里,猫咪学校只是一个模拟经营类的游戏,它是以游戏的视角去设置守则规范。不得不说通义千问跟文心一言相比,就是一整个人间清醒。
MINIMAX(abab6-chat)
minimax则是以宠物店、兽医诊所或是专门的猫咪训练中心为蓝本,设置了整套规则,所以才会如此恰到好处,在minimax的眼中,从没将“学校”理解为人类学习的场所,而是现实中的猫咪训练中心类似的地方。
ChatGPT(GPT-4)
Bard(Gemini Pro)
Claude2
在GPT-4和Gemini Pro的眼中,猫咪学校是一个“假想”的概念,而Claude2则跟minimax一样将猫咪学校理解为宠物训练中心。仅从本次测试的三款国外模型来看,从有趣程度排名是Claude2>GPT-4>Gemini Pro。
整体来说,这次仅是两轮测试,各个模型都能保证前后表达统一。
国内大模型除了minimax的abab6以外,在默认情况下,就已经有了一层相对明显的性格和倾向。国外的几款模型虽然回答也有所不同,各有各的侧重点,但整体性格都不够突出。
最后有一个额外的小发现,就是在国内越接近C端的模型产品,越会在默认设置中赋予一次性格,来让生成的语言有趣、平易近人,以此来达到吸引用户的效果。


欢迎加入这个星球,见证硅基时代发展↓

点个在看,再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​「最甜港姐」退圈:回港大教书、当律师……她才是时间管理大师?打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训这才是真正的打工皇帝内娱都该看看,这才是真正的大耻度离谱!比利时爱乐乐团来华演出大翻车,竟被扒出是街边路人假扮演奏大师?!出国旅,在离美之前最好要做的一件事​「最甜港姐」退圈读博、回港大教书、当律师……她才是时间管理大师?这就是真正的躲猫猫吗?大模型突飞猛进,但我们离真正的AGI还有距离AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-4【荐】42岁郭晶晶养娃细节,罕见曝光:这才是真正的豪门“富养”幻方量化开源国内首个MoE大模型,全新架构、免费商用【动脉严选新品鉴第37期】百度灵医大模型:国内首个产业级医疗大模型【周末综艺会10期】— 我拍的荷花过年必备! 北美速冻汤圆最强测评来啦, 哪款是你最爱?突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】经过语文课的训练,我再也无法阅读文学OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-42024年或成国产大模型应用爆发年!有道再推多款大模型产品及应用中关村科金发布国内首个企业知识大模型,助力企业业务创新增长千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024猫猫大战深海大章鱼!AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 DebugAI 大模型,让手机真正开始「智能」多伦多学篮球,不能错过的训练优惠活动!挥洒汗水, 享龙年好礼!什么才是真正的不朽?英国本科电子电气工程爆火!曼大狂撒offer,谁才是真正的EEE之王?明天你是否依然爱我---美中的小蜜月她一部戏火了11年,却在巅峰期为娃半隐退!近况曝光后网友怒赞:这才是真正的富养孩子这才是真正的“中国风”香水!用香味勾勒东方的“水墨温柔德国常被称为“欧洲的妓院”《僭越之殇》(26)灵灵Q的三世轮回「最甜港姐」退圈读博、回港大教书、当律师…她才是时间管理大师?“什么是真正的放下?”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。