国际科技财经博客移民网络热点娱乐民生时事公众号

>

幻觉处理国内最优！530亿参数Baichuan2推理能力飙升100%，首次开放API商用

幻觉处理国内最优！530亿参数Baichuan2推理能力飙升100%，首次开放API商用

2023-09-26 04:09

新智元报道

编辑：编辑部

【新智元导读】昨天，Baichuan2-53B正式发布！首次开放API，意味着百川大模型开始正式进军商用了。另外，模型的数学和逻辑推理能力都大幅飙升，对于幻觉的处理，已经在国内遥遥领先。

百川大模型，昨日全面升级！

就在9月25日，百川智能正式发布了全新升级的530亿参数大模型——Baichuan2-53B。

体验地址：https://www.baichuan-ai.com/home

这一次，它的数学和逻辑推理能力显著提升。

更重要的是，通过高质量数据体系和搜索增强，Baichuan2-53B的幻觉大大降低，是目前国内幻觉问题最低的大模型。

不仅如此，作为首批通过备案的大模型企业，百川智能还开放了Baichuan2-53B API接口。

这意味着，百川智能正式进军To B领域，从此将开启商业化进程。

幻觉处理，国内遥遥领先

最值得一提的是，新升级的Baichuan2-53B，在「幻觉」处理上已经在国内行业遥遥领先了。

简单讲，「幻觉」就是LLM在没有任何已知事实支撑下，常常会一本正经地胡说八道。

别看GPT-4在多种任务上表现突出，但也无法逃过这一诅咒。

那么，为什么大模型会出现「幻觉」？

4月，OpenAI联合创始人兼研究科学家John Schulman在UC伯克利的演讲中，详细阐述了大模型难以攻克的难题。

在Schulman看来，LLM黑盒内部隐藏着一个「知识图谱」。如果这个架构中没有的知识，仅通过SFT教大模型（即行为克隆）知识，实则在教它输出幻觉。

针对这一难题，百川智能又是如何在大模型的「幻觉处理」上，做到业内领先的呢？

在高质量数据构建上，Baichuan2-53B独创了一套数据质量体系。

以低质、优质为标准将数据进行分类，确保Baichuan2-53B始终使用优质数据进行预训练。

另外，在信息获取方面，Baichuan2-53B对多个模块进行了升级，包括指令意图理解、智能搜索和结果增强等关键组件。

这一综合体系通过深入理解用户指令，精确驱动查询词的搜索，最终结合大语言模型技术，优化模型结果生成的可靠性，实现更精确、更智能的模型回答结果，减少模型幻觉。

比如，在解释「勾三股四弦五」这个问题上，GPT-4显然是在胡说八道。

相比之下，Baichuan2-53B一次就给出了正确的回答。

再比如，「周树人和鲁迅是不是同一个人」这道经典问题，Baichuan2-53B的回答既全面又准确。

可以看到，通过构建高质量数据体系，以及搜索增强技术两个方面的优化，Baichuan2-53B有效降低了模型幻觉。

经过FacTool评测后的结果显示，Baichuan2-53B的综合得分为140.5，在主流基础大模型中仅排在GPT-4之后，处于国内领先水平。

FacTool是由上海交通大学、卡内基梅隆大学、香港城市大学、Meta 等机构学者共同提出的一款通用框架，能够查核大模型生成内容的事实准确性（也能查核一般性内容的事实准确性）。

项目地址：https://github.com/GAIR-NLP/factool

能力升级，推理100% up

其实，Baichuan2-53B已经是百川智能发布的第6款大模型了。

4月10日百川智能成立后，就一直在以惊人的速度创新，迭代的速度竟然达到了平均每28天就推出一款大模型！

早在8月8日Baichuan2-53B刚发布时，它就表现出了优异的知识问答、文学创作才能。

如果要问，评价一款大模型是否领先的重要指标是什么，相信「数学和逻辑推理能力」，会是诸多业内人士给出的答案。

这次，在Baichuan-53B的基础上，Baichuan2-53B就重点强化了数学和逻辑推理的能力，并且，还对整体能力进行了全面升级。

具体来说，它的逻辑推理能力提升100%，数学能力提升31%，语言理解能力提升29%，文本创作提升18%，知识问答提升9%。

数学推理

数学能力大升级的Baichuan2-53B，做起数学应用题来当然是不在话下。

比如，两个数的和是572，其中一个加数个位上是0，去掉0后，就与第二个加数相同。那么，这两个数分别是？

Baichuan2-53B列出了方程式，假设一个加数是10A，另一个为B，然后根据已知条件，得出正解。

再比如下题中，Baichuan2-53B先计算出来了总运输收入，然后除以每箱玻璃亏损的钱，就得到了损坏的玻璃箱数。

再来个经典的「两地相距多少千米」的问题，Baichuan2-53B通过分步计算，得出了正确答案。

推理方面，先来个简单的问题：天气预报本周三会下雨，昨天果然下雨了，今天是星期几？

Baichuan2-53B毫不费力，直接得出「星期四」！

接下来，推理难度稍微升级一下：假设有一个池塘，里面有无穷多的水。

现有两个空水壶，容积分别为5升和6升。问如何只有这2个水壶，从池塘里取得3升的水？

Baichuan2-53B行云流水地开始作答，6步内给出了正确答案。

经过多轮的测试可以发现，升级后的Baichuan2-53B的数学和逻辑推理能力，果然不可同日而语。在曾经不太擅长的题目上，它都有了大幅提升。

时效问题

而在时效性这方面，Baichuan2-53B的表现可谓十分优异。

杭州亚运会刚刚开幕，年龄最小的选手竟然仅有9岁。Baichuan2-53B在最新的问题上，也答对了。

甚至，Baichuan2-53B准确地解释了，特斯拉刚刚公布的人形机器人Optimus背后神经网络原理。

再比如，今年9月上旬，第80届威尼斯电影节在意大利落幕。

此次电影节，是否有中国电影和演员获奖？

Baichuan2-53B立刻回答出，李鸿其的《爱是一把枪》获得了最佳长片首作，梁朝伟获得了终身成就金狮奖。

梅老板与大巴黎的合约今年6月底到期，在7月正式加盟迈阿密国际。

对此，Baichuan2-53B也是了如指掌。

同样，它还可以准确地告诉你小德一共拿了24次大满贯，包括2023年的这一次。

开放API，正式进军商用

不仅如此，这次Baichuan2-53B还正式开放了API接口，可以让企业和开发者将模型集成到自己的应用和服务中。

API地址：https://platform.baichuan-ai.com

这项服务是否有门槛呢？

可以说，几乎没有。Baichuan2-53B的API接口相当便捷易用，只需要简单的配置和集成，就可以接入了。

而且，它对OpenAI的接口高度兼容，这样就可以让客户快速迁移，无论是模型的部署成本还是转换成本，都大大降低。

总之，现在无论是智能客服、智能写作还是智能推荐，都能得到大模型的能力加持。

要说企业用户最关注的，莫过于安全合规问题了。

对此也无需担心。

作为首批通过《生成式人工智能服务管理暂行办法》备案的大模型企业，百川智能为Baichuan2-53B打造了覆盖大模型预训练、精调、推理全周期的安全增强，可以说，全流程都在安全保障之下。

而借助着Baichuan2-53B丰富强大的模型能力，企业用户不仅可以让已有业务升级、减低成本，还能探索更多的应用场景。

可以相信，就在此刻，已经有一大波令人印象深刻的创新，正在土壤中被酝酿了。

参考资料：

https://www.baichuan-ai.com/home

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

国产130亿参数大模型免费商用！性能超Llama2-13B，支持8k上下文，哈工大已用上推理1760亿参数的BLOOMZ，性能时延仅3.7秒 | 最“in”大模型性能超越Llama2-13B，可免费商用，姚星创业公司开源百亿参数通用大模型幻觉降低30%！首个多模态大模型幻觉修正工作Woodpecker LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证正面硬刚GPT-4V！浙大校友开源多模态大模型LLaVA-1.5，130亿参数8个A100一天训完国外Java工程师力证：GPT-4不能解决逻辑谜题，但确实具备推理能力老黄深夜炸场，世界最强AI芯片H200震撼发布！性能飙升90%，Llama 2推理速度翻倍，大批超算中心来袭国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练 ChatGPT代码生成飙升10%！北大华人一作：细化prompt，大幅改进大模型代码能力首款生成式AI移动芯片天玑9300：能跑330亿参数大模型书识（十）今晚直播 | ACL 2023原作解读：研究评测与提升大语言模型时间推理能力代码数据会促进LLM的推理能力吗？微小說熱海之春 1300亿参数，国内首个数学大模型MathGPT上线！多项基准赶超GPT-4 首次击败GPT-4？700亿参数Xwin-LM登顶斯坦福AlpacaEval，13B模型吊打ChatGPT 英伟达英特尔推改良版芯片重回中国市场？产业链人士称属实；阿里巴巴CEO吴泳铭：即将开源国内最大的720亿参数大模型丨AIGC日报中文最强开源大模型来了！130亿参数，0门槛商用，来自昆仑万维 5124 血壮山河之武汉会战富金山战役 12 GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升 DALL·E 3 推理能力炸裂提升，OpenAI 抢跑“ChatGPT 原生”多模态大模型幻觉降低30%！中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟王小川第三个大模型发布！530亿参数、服务B端、文科更强国产百亿大模型再增一员！400亿参数孟子GPT发布，各项任务平均提升10-15%免费、可商用，阿里云开源70亿参数通义千问大模型老黄深夜炸场，世界最强新品震撼发布：性能飙升90%，Llama 2推理速度翻倍 |【经纬低调分享】王小川月更大模型：530亿参数但闭源，现场拷问室温超导相关问题爱奇艺VR公司业务停滞，员工或被欠薪；阿里云开源通义千问 70 亿参数模型，免费可商用；华为正式发布鸿蒙 4，接入大模型｜Q资讯笑谈邂逅（26）当评委老黄给H100“打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍北京大学黄铁军、杜凯团队在《自然·通讯》发表生物神经网络精细仿真算法并证明理论最优！基于MCTS和Residual-EBM的数学推理能力提升实践昆仑万维开源130亿参数大模型！0门槛商用、多榜超Llama 2，预训练数据也开源历史小说《黄裳元吉》第一百二十章血色

热点事件追踪