Redian新闻
>
用国考题来测试“百小应”和 GPT-4o,到底谁能成功上岸?|AI鲜测

用国考题来测试“百小应”和 GPT-4o,到底谁能成功上岸?|AI鲜测

公众号新闻

作者|丸丸柚贝

编辑|椰子
5月22号,百川智能正式发布了Baichuan 4大模型,并推出成立之后的首款AI搜索助手“百小应”。
官方称,Baichuan 4与国外主流大模型对比,在知识百科、长文本、生成创作等文科类中文任务上明显优于国外大模型。

百小应体验地址:

https://www.baichuan-ai.com/

另外,据说取名“百小应”是因为它能“一呼百应”。话不多说,AI测评组再次上线,V我50,让你看看“百小应”的实力。

所以本期AI测评内容重点:知识常识、言语理解、问题分析、逻辑推理、长文本。意外发现国考题在这些方面简直比弱智吧还要好用。
今天就来看看“百小应”和GPT-4o谁能考公上岸成功!
1
  AI国考——行测

一、常识——奇怪的知识又增加了

Q1:"毛病"指的是什么动物的毛?「国考真题」


  A.猪        B.狗        C.羊       D.马

双方作答(点击可看大图):

百小应

ChatGPT 4o

【答案】:D,马

百小应回答正确!

百小应 🆚 ChatGPT 4o 👉 1:0
Q2:人体中最先衰老的器官是:「国考真题」
双方作答(点击可看大图):

百小应ChatGPT 4o
【答案】:胸腺
百小应回答正确!
百小应 🆚 ChatGPT 4o 👉 2:0

PS:什么?胸腺竟然是从出生就开始衰老退化了!我应该不是最后一个知道的吧!

(关注硅星Gen AI让你了解更多冷知识🤪)

Q3:图片中的小绿人叫什么名字(常识+多模态)「国考真题」

双方作答(点击可看大图):

百小应
ChatGPT 4o
【答案】:皮特托先生
百小应:虽然冷门,但也难不倒我!
百小应 🆚 ChatGPT 4o 👉 3:0

Q4:这条裙子是什么颜色的?

     (经典裙子,测测AI图片视觉如何)
双方作答(点击可看大图):
百小应ChatGPT 4o
【答案】:你看到的是什么颜色呢?🤔
百小应和ChatGPT 4o均能识别出该裙子的颜色分为两种不同情况,但ChatGPT 4o描述的更加清楚、准确,并了解到该裙子的颜色曾引发争议。
百小应 🆚 ChatGPT 4o 👉 3:1

二、言语理解

春夏秋冬:四季()「国考真题」

A.喜怒哀乐:情绪            B.赤橙黄绿:颜色

C.早中晚:一天               D.东南西北:四方
双方作答(点击可看大图):
百小应ChatGPT 4o

【答案】D

【解析】春夏秋冬:四季,全同关系和包容关系,春夏秋冬是四季,四季只有春夏秋冬。喜怒哀乐:情绪,情绪还有其他惊恐等。赤橙黄绿:颜色,颜色还有其他黑白红。早中晚:一天,一天除了早中晚还有上午下午等。东南西北:四方,东南西北是四方,四方只有东南西北,故选D
百小应答对!
百小应 🆚 ChatGPT 4o 👉 4:1

三、问题分析

Q1:电脑黑屏怎么办?
双方作答(点击可看大图):
百小应ChatGPT 4o

百小应回答时可以主动提问,并且支持联网多轮搜索,解决问题更具有针对性(询问方式还怪贴心的,有被服务到😂);ChatGPT 4o则是列举出来一些常见的解决办法。这局胜负很明显了吧!

百小应 🆚 ChatGPT 4o 👉 5:1
Q2:请你对比一下华为P70和苹果15pro
双方作答(点击可看大图):
百小应ChatGPT 4o

两者均是以表格➕关键信息输出,结构清晰。但是两者的信息都不够准确,相对来说ChatGPT 4o的出错更少一些。所以这局ChatGPT 4o胜出。

百小应 🆚 ChatGPT 4o 👉 5:2

四、逻辑推理

Q1:找出不同的选项()「国考真题」

  A.春天        B.夏天        C.秋天       D.冬天
双方作答(点击可看大图):
百小应ChatGPT 4o

【答案】C

【解析】因为“春、夏、冬”的字型都是上下结构,而“秋”是左右结构。故正确答案为C。
(你回答对了吗?)
百小应虽然选项对了,但是解析有点胡言乱语,不得分;ChatGPT 4o,答案没对,但解析略有一些道理,但不得分!
百小应 🆚 ChatGPT 4o 👉 5:2
但是说实话,这题不管是答案还是题目本身在社交媒体上争论还是挺大的,现在看来在AI届也是挺有争议的。

Q2:甲、乙、丙、丁四人都报考了银行选拔考试,只有一个人通过笔试进入到面试,当被询问时,他们分别这样回答:

甲:我没有进入面试

乙:丁进入了面试

丙:乙进入了面试

丁:我没有进入面试

这四人中只有一个人说了真话,那么谁进入了银行选拔考试的面试?「国考真题」

A.甲          B.乙         C.丙         D.丁
双方作答(点击可看大图):
百小应ChatGPT 4o
【答案】A。
【解析】第一步,乙与丁是矛盾关系,必是一真一假;第二步,由题干知只有一真,可以判断真命题在乙与丁中;第三步,可由上述推断甲和丙为假,据此得出甲进了面试。故答案选A。
百小应和ChatGPT 4o全都out😅
百小应 🆚 ChatGPT 4o 👉 5:2
1
  AI国考——申论(长文本生成创作)

问题:

“给定材料 5”提到,“在大变局的喧嚣中始终坚守住‘本分’,切实增强好‘本领’,不断突破创新,推动高质量发展的步伐就能坚实稳健,我们就能走向广阔的未来。”请结合对这句话的理解,参考给定材料,联系实际,自选角度,自拟题目,写一篇文章。

要求:

(1)观点明确,见解深刻;

(2)参考给定材料,但不拘泥于给定材料;

(3)思路清晰,语言流畅;

(4)字数 1000~1200 字。「国考真题」
双方作答:

上下滑动查看更多

百小应


上下滑动查看更多

      ChatGPT 4o

两者的文章结构都比较清晰,那不如让Kimi当个中间人来评价两者的表现。

Kimi巴拉巴拉👉总结:ChatGPT 4o写的好。
OK,这局胜负已分!ChatGPT 4o胜出。
1
  恭喜“百小应”成功上岸
最终结果百小应 🆚 ChatGPT 4o 👉 5:3恭喜百小应以两分优势,成功上岸!在理解中文语境、常识等题目上,百小应表现突出,AI联网多轮搜索,主动提问的能力也有些惊艳。总的来说,不愧是国内排名第一大模型——Baichuan-4大模型
在国内价格战打到飞起的时候,百川智能凭实力突出重围。王小川表示,价格免费是优势,但不一定是竞争力。百川并不会掺和到价格战当中,因为To B不是公司的主要商业模式,价格战的影响也有限。公司会将更多的精力放在超级应用当中。
最后,王小川还私下透露,让AI助手百小应会提问,主要是为了日后的超级应用做积累。

点个在看,再走吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5ChatGPT-4o,人类「AI 助理」的一大步|Z Talk外媒如何报道GPT-4o,有没有“炸裂”?Challenge (pikleball), 4/26/2024热搜爆了!丢人丢到家,华语乐坛,到底谁能救救那英?华西靠孟德尔登顶JAMA!双非医学生写孟德尔SCI成功上岸博士!孟德尔随机化还有机会!Sora 平替出现了!字节 Dreamina 开放测试,申请就给用|AI 鲜测英本转美本成功上岸!芝大转学录取分享~OpenAI王炸更新GPT-4o,干掉所有语音助手!丝滑如真人引爆全网科幻成真![干货] OpenAI 最新产品GPT-4o,“o”代表什么?Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA遥遥领先的GPT-4o,为什么要免费开放?ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步人类都看不懂的甲骨文,AI 能猜到啥意思?|AI 鲜测交卷!GPT-4o 大战国产 AI 模型写 2024 高考作文,今年谁能交出「满分作文」OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型GPT时隔一天,百川大模型拿下国产第一,AI助手「百小应」上线OpenAI震撼发布GPT-4o,王煜全第一手解读!70B模型秒出1000token,代码重写超越GPT-4o,来自OpenAI投资的代码神器Cursor团队OpenAI 首席科学家官宣离职/腾讯一季度净利润超500亿/Google 回击 GPT-4o,连发多款新品我们的黑白时代1:姑姑的礼物三体网飞版观后上手了刷屏一天的GPT-4o,我感觉目前也就那样。。。假期被“Remini”硬控五天,这就是古希腊掌管粘土人的神?|AI 鲜测视觉错觉也能识别?被忽略的 Gemini 1.5 Flash 有哪些神奇表现?|AI 鲜测关于 GPT-4o,还有哪些你需要知道的信息?“AI届汪峰”谷歌的Astra是强势反击GPT-4o,还是又被抢了风头?GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4为救女儿,加州年轻母亲跳入河中!但未成功上岸百川新模型冲顶中文测试基准!首款AI助手“百小应”同时发布,“最懂搜索”更快!更自然!OpenAI推出GPT-4o,记者实测→原来 ChatGPT Search 已经出了?|AI鲜测现在有什么行业可以让人快速翻身上岸?可以试试这个方向 上岸其实不难!货轮撞桥,自动导航车还有多远?脱胎梦蓝不亦乐乎——点绛唇·春时候
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。