百川新模型冲顶中文测试基准!首款AI助手“百小应”同时发布,“最懂搜索”
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
王小川在搜索时期种下的种子,在大模型时代又开花了。
他创业的百川智能,刚刚发布了自家首款AI应用,to C的“百小应”。
乍一看,这就是个当下大热门的AI助手,但官方强调,这个AI助手啊,它懂搜索,还会引导式提问。
你别说,当“搜索”和“王小川”这两个词放到一起的时候,就格外让人想仔细一探究竟。
百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索等能力,能更精准地理解和满足用户需求。
百川解释,让模型掌握专业的搜索技能,是为了给用户“提供专业、丰富的知识和资源”。
并且,它还支持用户通过语音进行交互。
我们试过了,大家现在可以在iOS商店、安卓应用市场、百川智能官网下载百小应App,或者通过Ying.ai的Web端免费使用。
而百小应背后,是百川智能终于亮相的新一代基座大模型,Baichuan 4。看到前面能语音交互就能隐隐猜到,这次百川推出的大模型具备多模态能力。
一经发布就立刻上战场了,丢给SuperCLUE(通用大模型综合性中文测评基准),以总得分80.64分刷新了国内纪录,中文综合能力测试更是以1.51分的优势险胜GPT-4-Turbo-0125。
亮出Baichuan 4,连同发布懂搜索、会提问的AI助手百小应,朝规划的超级模型和超级应用更进一步,百川智能今年一改以往月更上新的频率,原来是憋了个大活……
百小应,怎么用?
百小应,百川智能成立一年多来推出的首款AI应用。
和大多数AI助手一样,它也是个通才,无论是长文本阅读还是多模态理解,都是它具备的基础能力。
不过还是想先跟大家一起来看一下它区别于所有AI助手产品最特别的点,百小应它懂搜索、会提问。
怎么个懂搜索法?融合Baichuan 4通用能力和百川搜索技术,百川展示了百小应的3种懂法。
一是会定向搜索。
提一个问题,百小应能精准定位问题领域,然后直奔权威站点提取重点信息,丰富输出。
主打一个快速和准确。
二是能多轮搜索。
每一个问题,百小应都能针对它进行逐步解析,搞清楚问题背后到底想要的是什么,然后再给出关键答案。
相比单轮搜索,在市场调研、产业分析等复杂场景下,多轮搜索能够有效地获取更专业、更有深度的信息。
三是可以提供嵌入式搜索结果。
简单来说,就是与其它AI在单次搜索后“总结网页信息”的简单调用不同,百小应是将搜索结果作为观点、论据直接应用到问答结果中。
“像Perplexity那种,叫总结搜索结果,我们认为那个方向应该是搜索2.0要做的工作,搜索引擎公司自己就能干,不是我们要做的。”
同时在输出时,百小应比较讲求结构化输出。
也就是将关键信息以描述+表格的形式来给出,让回答更清晰,重点一目了然。
多轮、定向、嵌入搜索等技术加持,得到的结果就是百小应懂搜索。
团队明确了解,模型+搜索技术的融合确实可以提升模型回答的准确性、降低幻觉,但只有技术是不够的,需要产品设计上有配套的解决方案。
就上手体验的初步感观来说,懂搜索带来的好处,既能提高AI输出回答的准确性、时效性,降低幻觉;也能增加回答中的观点、案例、数据等,使模型的回答更丰富、更鲜活。
说完百小应懂搜索,再来说说它会提问是怎么个情况。
非专业提示词工程师,一般和AI对话时的需求描述都比较笼统,不会特别精确。
百小应会提问就是针对这种情况准备的,在用户问题的基础上,通过提问一步步引导,帮助用户清晰表达自身需求。
上面这些对百小应产品设计理念的思考和技术实现都是为了降低普通人使用AI助手的门槛,对普通用户来说还是很友好的。
当然了,说到底是为了最后给出一个用户真正用得上的答案。
前面提到,百小应对长文本阅读和多模态理解也是得心应手,下面放几个showcase,大家也可以自己上手体验一下(捉虫和找bug,简直是大模型时代咱们最喜闻乐见的事儿了)。
多模态测试结果,还比较nice,博物馆里的半面雕塑头像也能精准识别出:
长文本能力,让它读财报也顺利过关:
一通体验下来,感觉日常对话、办公场景、搜索求知、多模态识别……百小应的可应用场景还是挺多的。
但百川智能创始人兼CEO大胆开麦,这并不是他此前提到过会推出的超级应用。
现阶段市场上,既没有超级模型,也没有超级应用。
用他的话说,百小应目前是个AI助手,是大模型时代,用户手里的应用从“工具”化身“伙伴”的中间态。
整个过程,是逐步发展、逐步满足用户需求的过程。
背后模型Baichuan 4首战登顶
开头咱就提到过,百小应背后,是百川智能推出的Baichuan系列模型最新版本Baichuan 4。
也是百川智能入局大模型以来推出的第一款多模态模型。
相较前代基座模型Baichuan 3(今年1月底发布),Baichuan 4在各项能力上的提升还挺明显。
其中指令跟随提升20%,信息理解提升9%,知识问答提升15%,创作提升16%,逻辑推理提升15%;专项能力方面,数学提升14%,代码提升9%。
首战告捷,在OpenAI长期霸榜的SuperCLUE综合基准上,Baichuan 4一出手就拿下了第一:
总得分80.64分,超过前一个榜一大模型0.61分。
真的是险胜……
然而分差虽小,但众所周知在大模型时代,哪怕0.01分也显得弥足珍贵。
怎么做到的呢?
训练过程中,Baichuan 4引入的技术优化手段,包含基于model-based+human-based的协同数据筛选优化,对长文本建模位置编码科学的Scaling-law,有效提升了模型对数据的利用。
对齐阶段,团队重点优化Baichuan 4模型Reasoning、Planning、Instruct Following能力,通过Loss驱动的数据选取与训练,多阶段爬坡,多模型参数融合等方式。
不仅如此,团队在这一阶段还提出了Sequential Preference Optimization(SPO)方法,通过顺序微调LLMs以与人类偏好的多个维度保持一致,关键指标和模型稳定性得到显著提升。
同时突破RLHF和RLAIF融合的RLxF强化学习对齐技术,大幅提升模型的指令遵循等能力。
此外,Baichuan 4还具备行业领先的多模态能力,在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等评测基准上表现优异,领先Gemini Pro、Claude3-Sonnet等多模态模型。
不过,这次Baichuan 4可没走开源路线。
王小川大方对此做出了回应:“去年我们率先挑起开源,是百川团队入局大模型的投名状,当时国内开源环境非常不成熟。我们挑起开源这件事,也对国内开源行业产生了重要贡献,现在开源领域已经有很多玩家在竞争了”。
朋友们,要相信市场的调节机制啊——王小川说。
Baichuan 4闭源了,但API供应依旧。
新一代基座模型对外开放后,一口气开放四款模型API,分别是Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API。
同时也分旗舰版和专业版,旗舰版全量开放Baichuan 4的各项能力;专业版则为Baichuan3-Turbo,价格比旗舰版实惠,性能比Baichuan 2更好,且针对企业的高频应用场景做了针对性优化。
有趣的是,虽然Assistant API也直接开放给企业用户免费试用,但面对近期热火朝天的大模型价格战,百川的态度很明确:
什么,价格战?婉拒了哈。
一来,王小川明确自家主要是吃to C这碗饭的,云厂商的价格战,对百川没啥影响。
二来,他立场坚定,认为未来肯定会卷,但大家现在太狠了,“在中国市场,API服务其实对创业公司是走不通的”。
王小川进一步阐述自己的观点:
“如果只是从商业角度来看的话,中国当前的商业环境里面To B比To C大概本身就小了10倍,在美国,中国B端市场这样的情况是不存在的;
其次,在做数据时会发现,你现在收的是人民币,但花的算力却是美元,这其实又有一个中美API服务市场的巨大区别。”
对于百川智能而言,内部一致认为一定要做有差异化的事情。
“只是卷价格的话,可能头部创业公司走低价是一个优势,但你想价格低就变成竞争力的话,往市场走这样其实是不够的。”
为什么首款to C产品长这样?
去年,王小川几度对外公开发言,表示2024年有可能会诞生若干大模型超级应用。
不出意外的话,这或许是大势所趋,行业中,不少大模型创业公司确实早就在to C端出牌了。
但在价格战上不慌不忙的百川智能,在推出应用这块,也呈现出一种徐徐图之的心态。
王小川一笑,说:“我不觉得百小应发得晚,相反,我觉得发早了。我认为模型应用还需要更多时间的打磨。”
他表示,模型应用百万级的DAU,还远远够不上“超级应用”的称号。大家之前发布应用,更多是对自家模型进行展示,到现在,用户反而不知道这些应用在干啥了。
整个行业现在都还没到成熟的状态。
之前做输入法、做搜索引擎、做浏览器,我们深刻地知道一个应用到什么样的时候,才是变成一个广泛被使用的产品(的最佳时机)。
所以,百小应亮相的时间无所谓是早是晚,而是百川智能挑了个机会把它丢到行业里,让团队可以更具体地把它运转起来。
在迈向超级应用之前,百川智能把百小应派遣为第一位上战场接受审阅的战士,也有自己的道理。
如上文提到的,百川智能认为,不同于信息时代工具属性的产品,大模型创造的是新物种。
让AI从工具变为伙伴,基于大模型打造AI助手更像是在“造人”。
就像人能够使用工具、会思考,能听、能读、会看、会写等一样,AI助手类产品随着模型能力的持续提升,也应该具备相应的能力。
搜索作为当下大模型最重要的工具,不仅能让大模型实时获取最新信息,还能有效解决大模型的幻觉问题,是大模型的关键技术之一,也是百川智能的重点探索方向——去年发布Baichuan-53B的时候,团队就已经提出了搜索增强的理念,RAG技术也一直处于第一梯队。
基于这个理念,百川选择了懂搜索的AI助手来作为团队在to C场景打响的第一枪。
所以,百小应身上的差异化的百川味道,非常一目了然——
AI伙伴中间态+Baichuan模型优势+搜狗搜索功底沉淀+过往产品经验积累。
至于首款应用亮相后的未来是什么,王小川浅浅透露了一丢丢。
愿景自然是超级模型和超级应用,得可靠,且一定需要和搜索做结合。
突破点应该是让AI像(每个)行业的职业人士,把这个职业里的数据密度、思维度加进去,让它足够可用。
下一步的更迭方向嘛——嘿,王小川卖了个关子,横问竖问他就是不说。
不过发布会后的沟通环节,他隐隐约约有露出马脚啦!
他提到,为什么要让AI助手会提问,一个原因是为了日后的超级应用做积累,举的例子就是“你去看病说我发烧了,AI直接给你一个结果,一定是不可行的嘛”。
他还提到图灵奖获得者、Ilya的老师Geoffrey Hinton最近接受的采访,老爷子称医疗保健是最有前途的AI应用领域(他建议大家都去看看这个采访)。
医疗,嗯,这个思路果然很王小川。
反正,且让咱们试着玩着百小应,多等一会儿吧……
参考链接:
[1]https://mp.weixin.qq.com/s/56KqpHrtqesrsp8wGehEzQ
— 完 —
点这里👇关注我,记得标星哦~
微信扫码关注该文公众号作者