Redian新闻
>
百川发布530亿大模型,融入搜索能力:第一时间内测体验已来

百川发布530亿大模型,融入搜索能力:第一时间内测体验已来

科技

机器之心报道

编辑:泽南

参数量级提升,融入搜索引擎,目标服务 B 端。


连续三个月,王小川创立的百川智能就在昨天又发布了大模型。


8 月 8 日,百川智能在北京宣布新一代大模型 Baichuan-53B 正式上线。于此同时,王小川等公司高管接受了媒体采访。


「人们通常认为发布大模型至少需要半年时间,从数据积累准备、训练再到微调。我们推出首个模型仅用两个月,并且最终质量上也得到了外界的赞誉,」搜狗公司原 CEO、百川智能创始人王小川表示。「Baichuan-53B 和之前相比参数规模提升了很多,在写作能力上有了很大提高。」



从 6 月 15 日的 7B 模型,7 月 11 日的 13B 模型再到如今 530 亿,百川大模型的体量迅速提升。本次,百川智能还公布了大模型的网站,开放了内测申请。


链接:https://chat.baichuan-ai.com/home


在活动现场,王小川亲自演示了新一代大模型的部分能力。


发一个古龙文章风格的朋友圈:



完成一个短视频广告的脚本:


百川智能表示,在文本创作的创意性、风格模仿和实用性上,Baichuan-53B 都可以做到足够好,大部分任务上都能给出不错的回应。


在昨天的发布后,机器之心也获内测邀请进行了简单的测试,重点体验了百川智能所说的文本生成和搜索能力。



尝试一下 2023 年北京高考的作文题:



可见 Baichuan 53B 了解并能整合近期的一些热点消息:



但与此同时,大模型似乎并不认为自身具有获取实时消息的能力。



在 Baichuan-53B 上,搜狗强调大模型和搜索进行了很高程度的融合,希望能通过这种机制给未来的搜索模型打下了基础。


百川认为,搜索增强是解决模型时效性和幻觉的有效手段,将搜索技术与大语言模型能力结合实现了创新的模型优化,也提升了 AI 回答的可用性。


据介绍,百川大模型的搜索增强系统融合了多个模块,包括指令意图理解、智能搜索和结果增强等组件。该体系通过深入理解用户指令,精确驱动查询词的搜索,并结合大语言模型技术来优化模型结果生成的可靠性。通过这一系列协同作用,大模型实现了更精确、智能的模型结果回答,通过这种方式减少了模型的幻觉。



相比 ChatGPT 以插件形式链接必应搜索的方式,百川大模型对于搜索结合的更加深入,不过百川并未透露合作的搜索引擎。


另外在动态响应策略中,百川也有自己的独特之处,其将指令任务细化为 16 个独立的类别。这些类别涵盖了用户指令的包括精准问答、逻辑推理、头脑风暴等各种场景,对于每一个指令类别都进行了个性化的设计和优化。为了实现这个目标,新模型依赖于 Prompt 增强技术,即通过构造特定的输入提示来引导模型生成期望的输出。这种方式可以确保模型对不同类型的指令都能产生恰当的响应。


此外,百川智能讨论了动态超参数调整技术、智能化搜索词生成、高质量搜索结果筛选、RLHF 搜索结果增强等方法。在大模型预训练之外,百川强调了对齐调整(Alignment Tuning)对于提升回复内容质量的重要性。


「我觉得现在比当年做搜索引擎的时候成就感要大,」王小川表示。「在大模型时代以前,搜狗已很早应用了 transformer,但我们始终不能有效地把搜索改进成实用的问答模型。但是现在,我们可以更加容易地实现这样的能力。」


值得一提的是,在模型体量变大以后,百川没有继续此前的开源方式,Baichuan-53B 计划在下个月开放 API 和组件,进行业务对齐和专业领域方面的强化以推动落地。


「我们提供的大模型可以直接拿出来跑分测试,这在行业内是不多见的。这些产品没有为单独场景进行过优化,它们为成为 to B 基础模型做好了准备,」王小川表示。


2023 年 4 月 10 日,王小川官宣创办百川智能,致力于打造对标 OpenAI 的通用智能技术,构建基础大模型及颠覆性上层应用。在技术团队不断扩充的同时,百川也陆续推出了自研的大模型。



6 月 15 日,百川智能推出了 70 亿参数量的中英文语言模型 Baichuan-7B,并拿下多个世界权威 Benchmark 榜单同量级测试的榜首。7 月 11 日,百川智能又发布了参数量 130 亿的通用大语言模型 Baichuan-13B-Base、对话模型 Baichuan-13B-Chat 及其 INT4/INT8 两个量化版本。


而在融资方面,百川智能 5 月完成的天使轮融资获得了来自腾讯、小米、金山、慕华资本、清华大学资产管理有限公司等十余家机构的联合投资。


在商业模式上,百川智能希望远期能够在消费领域购建「超级应用」。而在目标相对明确的 to B 领域中,虽然进入市场的速度不算最快,但该公司也已通过开源等方式展现了自身的实力。


「从 to B 的角度来讲,开源和闭源的大模型都有发展空间,我们认为未来 80% 的公司需要基于开源模型构建智能化,」王小川表示。「目前已经有超过 150 家企业在申请使用我们的大模型。」


百川智能计划在今年的第三、四季度继续发布千亿、万亿级别大模型,构建出国内水平最高的,对标 GPT 系列的产品。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百川智能发布开源中英文大模型,多个榜单评测成绩最佳外派故事 (35)萍水相逢在南洋OpenAI对ChatGPT进行更新;百川智能正式推出70亿参数开源中英文大模型|AIGC周观察第六期引入33个大模型,百度智能云千帆大模型平台的“破茧时刻”百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE增强AI能力:谷歌云在托管数据库中集成向量搜索五十二 保旗棉Twitter 改名 X,新 Logo 曝光;B 站内测大模型搜索助手;大众新品牌纯电轿跑 SUV 曝光 | 极客早知道百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元《思乡情》&《千樱雪》王小川第三个大模型发布!530亿参数、服务B端、文科更强B站内测AI搜索,马斯克回应限流推特,华为申请疑似问界LOGO商标,QQ Windows全新体验版上线,这就是今天的其他大新闻!GPT-3.5 Turbo推出微调功能;昆仑万维天工AI搜索引擎内测;阿里云等联合发布教育大模型曝大基金三期将投3000亿!马斯克起诉中国公司侵害特斯拉技术秘密;王小川发布全新开源大模型! | AIoT情报GPT-4关键信息遭泄露;北京将发4000万元算力券;百川智能推130亿参数大模型丨AIGC大事日报百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报ChatGPT暂停集成Bing搜索;英伟达收购AI创企OmniML;天猫精灵启动大模型终端操作系统内测丨AIGC大事日报百川智能发布 70 亿参数量开源中英文大模型百度云上交大模型成绩单:接入42个大模型,月活企业近万家|甲子光年国产百亿大模型再增一员!400亿参数孟子GPT发布,各项任务平均提升10-15%五十一 治沙如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」次韵目前只To B,腾讯云为什么优先发布行业大模型,而非大模型?接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级北京内推 | 百度搜索策略部招聘生成式大模型/搜索排序方向算法工程师​​李嘉诚将投资千亿在欧洲建5G网络;王小川发布开源中英文大模型;​钟薛高回应21家分公司全部注销;故宫禁止未经允许进行商业拍摄谷歌:大模型不仅有涌现能力,训练时间长了还有「领悟」能力对话|三个月诞生79个基础大模型,中国到底需要什么大模型?360正式发布自研大模型,周鸿祎:国产大模型追赶GPT4的速度远超想象老黄发布最强AIGC芯片!内存容量暴增近50%,可运行任意大模型,“生成式AI的iPhone时刻已来”华为率先把大模型接入手机!小艺+大模型,智慧助手智商+++只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。