科大讯飞发布星火认知大模型,预计10月底赶超ChatGPT!
真机演示,“遥遥领先”?
科大讯飞董事长刘庆峰表示,在国内可测试的AI大模型中,讯飞星火认知大模型遥遥领先,和ChatGPT只有细微差距,甚至在评测体系范围内的部分能力已经超过ChatGPT,目前正在进一步优化中。
同时他预告了星火认知大模型后续版本升级的关键时间节点:
6月9日,星火认知大模型将突破开放式问答、多轮对话能力再升级、数学能力再升级;8月15日,突破代码能力、多模态交互再升级;10月24日,将直接对标ChatGPT,中文能力超越ChatGPT,英文能力与之相当。
从现场演示来看,星火认知大模型基本能够准确、流畅地完成交付的各项任务,但究竟与ChatGPT的表现有何差距,我们在本文第二部分进行了更直观的对比评测。
先来回顾下昨天星火认知大模型的现场表现。
写一篇“讯飞星火认知大模型发布会”的欢迎致辞:
当让它用小红书的文案风格重写以上文案后,“姐妹们”、“必备神器”等用词妥妥把“种草”风拿捏住了。
除了撰写欢迎词外,科大讯飞研究院院长刘聪还让星火认知大模型讲故事、写邮件、对英文内容进行语法检查和纠错等。
美中不足的是,星火认知大模型生成的英文品宣文案中夹杂了两个中文,对此刘聪解释称,这是因为星火认知大模型在训练过程中,中英文数据是一起进行的。
俗话说,男子汉大丈夫宁死不屈。但俗话又说,男子汉大丈夫能屈能伸,这两种说法应该怎么理解?
星火认知大模型对于这两句俗语的理解还算辩证。
如果一个小伙子跟女朋友吵架了,他应该是宁死不屈还是能屈能伸呢?
可见“情商”也基本过关。
我想把40平的房子装修成70平的感觉,请给出可行的装修方案。
(有相似装修需求的进来抄作业)
公共场合大声喧哗会影响他人,那小声说话是不是就不会影响?
(套路失败×1)
请问孔子在2008年奥运会上说了什么?
(套路失败×2)
常识推理和时空推理能力也还可以,并没有对不存在的事实一本正经地胡说八道。
在泛知识领域的开放式问答中,刘庆峰表示,星火认知大模型已与中国科学院等机构建立合作,以确保生成内容的专业性、准确性。未来还将推出专用的医疗大模型,扮演人们的健康顾问和助手。
如果家中老人突然晕倒,如何判断是不是中风?
如果判断老人是中风,能不能马上把他扶到床上去休息?
再来看看和逻辑推理能力一脉相通的数学能力。
花坛里有三种花,一共88朵,其中月季花的数量是菊花的4倍,牡丹花的数量是菊花的5倍少2朵,那么请问花坛里一共有多少朵牡丹花?
除解三元一次方程外,常规的计算、几何题也不在话下。刘庆峰表示,数理能力一定程度上代表了一个大模型的聪明程度。“讯飞星火大模型不仅在国内系统中遥遥领先,也超过了ChatGPT。”
在多模态输入和表达能力上,刘聪现场上传了一张英文菜单图片,发送“把这张图片上的英文翻译成中文”的指令,随即获得一张原图中的英文被对应中文覆盖掉的菜单图片。
此外,它还可以输出音频和视频。
先让它以立夏为主题写一篇200字左右的散文。
然后让它用一个温柔男声把这篇散文朗读出来,即可获得一段声情并茂的语音。
甚至可以让它生成一个女生形象的虚拟人朗读上面的散文,然后不到3秒就得到了一条播报视频。
视频截图
视频中的虚拟人从口型、神情、语气到肢体动作,都颇像那么回事儿,背景画面也会依据语义进行变换。但细节上还存在一些不足,比如部分口型和语音对不准、肢体动作有些单一和僵硬,背景画面的转换不够流畅等。
刘庆峰表示,星火认知大模型的多模态功能目前还在测试中,最迟将于今年8月正式上线,届时VIP用户可体验这一功能。
讯飞星火 VS ChatGPT
既然讯飞星火大模型对标ChatGPT,那么我们就向它们抛出相同的问题,看看它们现在的能力对比如何。
先来调戏一下AI,问它们一道“弱智吧考题”——
1. 知识问答+逻辑推理题:要跳多高才能跳过广告?
讯飞星火被带进沟里了,它说不建议跳过广告,非要跳过的话,它无法回答,“因为不同广告有不同的长度和要求跳跃的高度”。
ChatGPT巧妙绕过,“不确定您在问什么广告和正在跳跃什么”。
2. 语言理解+长文本写作题:写一篇创意作文,要求包含这些词语:立夏、枕头、宇宙、三分之二、冲啊。
看起来没什么关联的五个词,要如何融进一篇文章且能自圆其说呢?讯飞星火讲了一个有点离谱的故事,天热了人们需要凉爽的枕头,于是它就飞去宇宙寻找这种枕头,最后带了三分之二的神奇凉爽物质返回地球。
它还漏了第五个词“冲啊”,不过在提醒之后,它能补充完整。
来看看ChatGPT的表现。它睡在枕头上,脑内开始了想象,发现宇宙中三分之二都是黑暗物质,便燃起了探索未知的好奇和热情,呼吁大家一起冲啊,去创造属于自己的奇迹。
两者相比之下,ChatGPT的整体逻辑更加合理,表达完整,但要说创意,还是讯飞星火的神奇物质有点意思。
3. 营销文案写作:你是一个科技博主叫Ben,写一段1分钟的短视频文案,主题是推荐适合学生购买的笔记本电脑,要求风格是专业热情的。
讯飞星火似乎并不介意在回答中植入广告。它根据便携、性价比、玩游戏三种需求分别推荐了三款笔记本电脑,还介绍了具体性能参数,感觉很专业。不过其训练数据据说是截至2019年,所以这里推荐的并不是新品电脑。
而ChatGPT围绕一款笔记本电脑进行了详细介绍,且拒绝推荐具体品牌和型号的电脑,它说自己“没有偏见,也没有任何商业利益”。
下面是两道数理题,同时增加了语言翻译的小要求。
4. 翻译+数学题:先用30字文言文概括龟兔赛跑的故事,然后回答这个问题:龟兔1万米赛跑,兔子的速度是乌龟的10倍。从起点同时出发后乌龟不停地跑,兔子跑到某处开始睡觉。兔子醒来时,乌龟已经领先它4567米。兔奋起直追,但龟到达终点时,兔子仍落后200米。那么兔睡觉时龟跑了多少米?(正确答案9020)
讯飞星火先用29字概括了龟兔赛跑的故事,只是没用文言文。之后的解题过程看起来很复杂,它被难住了,最后给出了错误答案。
ChatGPT同样也没有用文言文概括,而且字数还超过了,最后结果也不对。看来解决鸡兔同笼问题之后,AI大模型还不能完美回答龟兔赛跑的行程问题。
5. 编程题:设计一个网页,中间有个棕色的木鱼图案,点击木鱼就表示敲一下,上方会显示黑色文字“功德+1”。
想做一个敲木鱼的网页,讯飞星火和ChatGPT都给出了设计代码,但都无法生成木鱼图片,需要手动添加。不同的是,ChatGPT设置好了木鱼的颜色,会显示累积功德值。
本次发布会披露了通用认知智能大模型评测体系,覆盖通用人工智能7大类、481个细分任务类型。
经科大讯飞评测对比,星火认知大模型已经在文本生成、语言理解、数学能力上优于ChatGPT。
但讯飞星火本身的模型参数量没有对外透露,我们直接向讯飞星火提问收到的回答并不准确,GPT-3模型就有1750亿参数量了。
因此,仅从以上几道题的直观比较来说,两者的表现没有相差太多,或许未来讯飞星火赶超ChatGPT也不是没可能。
正如刘庆峰所说,讯飞星火和ChatGPT这类纯大模型技术还存在许多待攻克的缺陷,比如由于对于大模型的训练是阶段性的,新知识难以及时更新;事实类问题容易“张冠李戴”、编造情节等,但未来将会有明确的方法攻克这些缺陷。
值得一提的是,据经济观察网报道,受宏观经济等因素影响,科大讯飞去年以来多个项目进程延期,导致2022年年度净利润大幅下滑,2023年一季度净利润转为亏损。
4月20日,科大讯飞宣布AI大模型产品名为“讯飞星火”,将在5月6日正式发布。4月20日当日收盘,科大讯飞股价当即上涨9.3%至63.95元。
今年以来,随着AI大模型成为最为性感的投资标的之一,科大讯飞股价涨幅达94.79%。在AI浪潮下,科大讯飞有望迎来新的发展机遇。
讯飞星火率先瞄准了教育、办公、汽车、数字员工这四个行业,希望推动AI大模型在垂直行业领域的技术落地。
现在AI+垂直行业应用的创业机会很多,进入这些赛道的玩家也不止科大讯飞,在这里,我们梳理了一些同类产品供各位玩家参考,你觉得谁能抢占先机?
请放大查看
作者 | 卷毛 月山橘 卡子
编辑 | 张洁
关于新榜
• 作为数据驱动的互联网内容科技公司,新榜提供新媒体内容营销和企业服务系列产品,助力中国企业数字化内容资产获取与管理,服务于内容产业,以内容服务产业。 • 我们的客户既包括中国平安、腾讯、字节跳动、京东、宝洁、雅诗兰黛、欧莱雅、联合利华、迪士尼等500强,也包括正在蓬勃成长的中小企业、新兴品牌和MCN机构。面向企业的内容化组织建设,新榜提供从公域流量募集分发到私域内容运营建设的各项所需。
• “新媒体,找新榜”是我们的使命。凭借全面稳定的新媒体内容数据产品和企业服务能力,新榜被评为国家级高新技术企业,曾荣获“全国内容科技创新创业大赛一等奖” 、“上海文化企业十佳”、“中国广告新媒体贡献年度大奖”、“金狮国际广告影片奖”、“沙利文中国新经济卓越增长奖”等称号,拥有多个传播评估监测专利。
微信扫码关注该文公众号作者