讯飞星火V4.0发布:国产大模型真的很炸裂!
“西游记中,孙悟空一共被唐僧念了几次紧箍咒?”
“孙悟空的金箍棒和哈利波特的魔杖有什么不同?”
如果把《西游记》和《哈利波特》这两套书给我,我恐怕得翻上一个礼拜。
然而将这两套书“喂”给星火,大模型几秒钟就给出了答案。
什么?你怀疑大模型“已读乱回”、“一本正经地胡说八道”❓
星火在每条答案的后面都附上了一个“小旗子🚩”,点开便可追溯到原文,甚至图片、音频、视频里的具体来源。
这就是星火V4.0首发的内容溯源功能。
6月27日,科大讯飞正式对外发布讯飞星火大模型V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。
随着新版本的发布,讯飞星火V4.0七大核心能力全面升级,在8个国际主流测试集中排名第一。
讯飞星火V4.0对标的是美国人工智能研究公司OpenAI发布的GPT-4 Turbo大模型。
值得注意的是,从这个月的25日开始,中国开发者就陆续收到了来自OpenAI的“警告信”⚠️
OpenAI宣布,将从7月9日起终止🚫对中国提供API服务。“断供”也就意味着这些套壳应用开发团队将遭受毁灭式的打击。
其实,这已经不是美国第一次在人工智能领域卡中国的脖子了。
去年10月17日,英伟达就因为美国商务部的要求,对中国所有能训练大模型的智能算力全面断供🈲
如今,中国的大模型底座能力到底怎么样?大模型究竟如何应用落地?在昨天的发布会中,科大讯飞董事长刘庆峰给出了答案。
刘庆峰表示,讯飞星火是中国第一个基于国产算力训练出来的全民开放的大模型。
什么叫全民开放大模型?就是国家网信办等八个部委联合认证,老百姓可以随时下载使用的大模型。
所有算法都是我们自主可控的,每一行码、每一个数据都是我们自己编写、自己清洗出来的大模型。
讯飞星火大模型V4.0正式发布,七大核心能力全面升级,全面对标GPT-4 Turbo,并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面,实现超越。
在国内外中英文12项大模型主流测试集中,讯飞星火在8个测试集中排名第一,超越GPT-4 Turbo等国际大模型。
当然,看数据可能不太直观,咱们来举几个栗子
“Bob在客厅里。他拿着一个杯子走到厨房。他把球放进杯子里,然后拿着杯子走到卧室。他把杯子倒过来,然后走到花园。他把杯子放在花园里,然后走到车库。
提问:球在什么地方?”
星火推断出球在卧室的地面上。
这就是星火V4.0在复杂指令、复杂逻辑推理、空间推理、多模理解等方面的效果,是星火“智商”再度进化。
在发布会的演示过程中,三位发言人在有高噪音的环境下同步讲话,讯飞听见仍然能够同步识别出三位发言人以及他们的发言,大家可以戳视频感受下,效果是相当的炸裂👍👍👍
在方言演示阶段,讯飞输入法不仅支持37种方言,而且支持方言与语种免切换。
在底座能力全面升级的同时,讯飞星火大模型V4.0还引入了“个人空间”的概念,打造“更懂你的AI助手”。
讯飞晓医上线了“个人数字健康空间”,它能够根据电子病历、检查报告、体检报告等用户个性化资料,构建个人数字健康空间,在看病前可以进一步剖析病症原因,用药时给出药物禁忌的个性判断,在检查后联合对比给出数据变化。
还可以通过角色切换,了解其他家庭成员的健康状况。
我们可以直接在星火中定义自己的AI人设。
我试着让星火根据几张图片编写一段故事,可读性还是蛮强的。
它竟然还写了妈妈对孩子的碎碎念“你一点也不胖”、“隔夜水不能喝”……
或许,这就是更适合中国宝宝体质的大模型吧。
大模型的能力升级固然重要,然而对消费者和企业而言,可能更关心的是大模型的能力具体会以什么形式落地。
在本次发布会上,讯飞还发布了星火智能批阅机。
这个外形酷似打印机的家伙,可以对多学科、多题型作业进行批改,甚至输出讲评课件。
老师原来90分钟的作业批改时间可以变成5分钟,60分钟的学情统计时间可以变成1分钟。
大模型的上半场是技术较量,下半场是应用落地。或许这就是大模型赋能教育的最好例子了!
说了这么多,其实OpenAI对中国地区停止服务,未必是一个坏事,它在另一方面会加速中国自己大模型产业的发展。
正如刘庆峰所说,讯飞星火V4.0全面对标GPT-4 Turbo当前能力水平。一旦GPT-5发布,差距又会拉开,但科大讯飞有信心快速追赶上。
微信扫码关注该文公众号作者