Redian新闻
>
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4

百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4

公众号新闻

作者 | 褚杏娟

1 月 29 日,百川智能发布超千亿参数的大语言模型 Baichuan 3。

在多个权威通用能力评测如 CMMLU、GAOKAO 和 AGI-Eval 中,Baichuan 3 都展现了出色的能力,尤其在中文任务上更是超越了 GPT-4。而在数学和代码专项评测如 MATH、HumanEval 和 MBPP 中同样表现出色,证明了 Baichuan 3 在自然语言处理和代码生成领域的强大实力。

不仅如此,其在对逻辑推理能力及专业性要求极高的 MCMLE、MedExam、CMExam 等权威医疗评测上的中文效果同样超过了 GPT-4,是中文医疗任务表现最佳的大模型。Baichuan 3 还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现优异,领先于其他大模型。

链接:https://www.baichuan-ai.com/

百川智能做了哪些改进

与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。为解决相关问题,百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步 CheckPoint 存储”等多种创新技术手段及方案,有效提升了 Baicuan 3 的各项能力。

高质量数据方面,传统的数据筛选依靠人工定义,通过滤重筛选、质量打分、Textbook 筛选等方法过滤数据。而百川智能认为,数据的优化和采样是一个动态过程,应该随着模型本身的训练过程优化,而非单纯依靠人工先验进行数据的采样和筛选。

为全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大提升数据质量。

训练稳定性方面,超千亿参数的模型由于参数量巨大,训练过程中经常会出现梯度爆炸、loss 跑飞、模型不收敛等问题。对此,百川智能提出了“重要度保持”(Salience-Consistency) 的渐进式初始化方法,用以保证模型训练初期的稳定性。并且优化了模型训练过程的监控方案,在梯度、Loss 等指标上引入了参数“有效秩”的方法来提早发现训练过程中的问题,极大加速对训练问题的定位,确保了最后模型的收敛效果。

此外,为了确保在数千张 GPU 上高效且稳定地训练超千亿参数模型,百川智能同步优化了模型的训练稳定性和训练框架,并采用“异步 CheckPoint 存储”机制,可以无性能损失地加大存储的频率,减少机器故障对训练任务的影响,使 Baichuan 3 的稳定训练时间达到一个月以上,故障恢复时间不超过 10 分钟。

训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,如高度优化的 RoPE, SwiGLU 计算算子;在数据并行中实现参数通信与计算的重叠,以及在序列并行中实现激活值通信与计算的重叠,从而有效降低了通信时间的比重;在流水并行中引入了将激活值卸载至 GPU 的技术,解决了流水并行中显存占用不均的问题,减少了流水并行的分段数量并显著降低了空泡率。通过这些技术创新,Baichuan 3 的训练框架在性能方面相比业界主流框架提升超过 30%。

测评展示
中文任务成绩超越 GPT-4

根据百川智能,Baichuan 3 在多个英文评测中表现出色,达到接近 GPT-4 的水平。而在 CMMLU、GAOKAO、HumanEval 和 MBPP 等多个中文评测榜单上,是超越 GPT-4 展现了其在中文任务上的优势。

此外,在 MT-Bench、IFEval 等对齐榜单的评测中,Baichuan 3 超越了 GPT-3.5、Claude 等大模型,处于行业领先水平。

医疗数据集 Token 数超千亿,
医疗能力逼近 GPT-4

另外值得注意的是,百川智能还给 Baichuan3 注入了丰富的医疗知识。

Baichuan 3 在数学和代码等多个权威评测上中文任务超越 GPT-4 的优异成绩,已经充分证明了其基础逻辑推理的能力。在拥有丰富高质量专业医疗知识,并能通过调优后的 Prompt 对这些知识进行充分激发的基础上,结合超千亿参数的推理能力,Baichuan 3 在医疗领域的任务效果提升显著,在各类中英文医疗测试中的成绩提升了 2~14 个百分点。

根据百川智能,Baichuan 3 在多个权威医疗评测任务中表现优异,不仅 MCMLE、MedExam、CMExam 等中文医疗任务的评测成绩超过 GPT-4,USMLE、MedMCQA 等英文医疗任务的评测成绩也逼近了 GPT-4 的水准,是医疗能力最强的中文大模型。

据悉,百川智能在模型预训练阶段构建了超过千亿 Token 的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作,从基础理论到临床应用等各个方面的医学知识,确保了模型在医疗领域的专业度和知识深度。

针对医疗知识激发的问题,百川智能在推理阶段针对 Prompt 做了系统性的研究和调优,通过准确的描述任务、恰当的示例样本选择,让模型输出更加准确以及符合逻辑的推理步骤,最终不仅提升了 Baichuan 3 在多项医疗考试上的成绩,并且在真实的医疗问答场景下也能给用户提供更精准、细致的反馈。

创作精准度再大幅提升

语义理解和文本生成,作为大模型最基础的底层能力,是其他能力的支柱。为提升这两项能力,业界进行了大量探索和实践,OpenAI、Google 以及 Anthropic 等引入的 RLHF(基于人类反馈的强化学习) 和 RLAIF(基于 AI 反馈的强化学习) 是其中的关键技术。

基于强化学习对齐后的模型不仅可以更精准地理解用户指令,尤其是多约束以及多轮对话下的指令,还能进一步提升生成内容的质量。但是在大模型中充分发挥强化学习的作用不仅需要稳定且高效的强化学习训练框架和高质量的优质偏序数据,还需要在“探索与利用”两者间进行平衡,实现模型能力持续爬坡。

对于以上问题,百川智能进行了深入研究并给出了针对性的解决方案。

强化学习训练框架方面,百川智能自研了训练推理双引擎融合、多模型并行调度的 PPO 训练框架,能够很好支持超千亿模型的高效训练,训练效率相比业界主流框架提升 400%。

偏序数据方面,百川智能创新性的采用了 RLHF 与 RLAIF 结合的方式来生成高质量优质偏序数据,在数据质量和数据成本之间获得了更好的平衡。在此基础上,对于“探索与利用”这一根本挑战,百川智能通过 PPO 探索空间与 Reward Model 评价空间的同步升级,实现“迭代式强化学习”(iterative RLHF&RLAIF)。基于强化学习的版本爬坡,可以在 SFT 的基础上进一步发挥底座模型的潜力,让 Baichuan 3 的语义理解和生成创作能力大幅提升。

以文本创作中最具挑战的唐诗宋词为例,作为中国传统文化的瑰宝,诗词不仅在格式、平仄、对偶、韵律等方面均有着严格的约束条件,并且内容高度凝练、寓意深远。如果仅通过 SFT 的微调学习,一方面高质量诗词的创作数据需要极高的专家成本,另一方面不能在平仄、对偶、韵律等多个方面实现较好的约束理解和遵循。此外,传统的单次 RLHF 范式在唐诗宋词面前也遇到极大挑战,PPO 在训练过程中生成的 Response 有可能超出 Reward Model 的评价范围导致“探索”的过程失控。

Baichuan 3 结合“RLHF&RLAIF”以及迭代式强化学习的方法,让大模型的诗词创作能力达到全新高度。可用性相比当前业界最好的模型水平提升达 500%,文采远超 GPT-4。



作为参数规模超过千亿的大语言模型,Baichuan 3 不仅英文效果达到接近 GPT-4 的水平,还在多项通用中文任务的表现上实现了对 GPT-4 的超越,是百川智能的全新里程碑。Baichuan 3 全面的通用能力以及在医疗领域的强大表现,将为百川智能打造“超级应用”,把大模型技术落地到诸多复杂应用场景提供有力支撑。

今日荐文


贾扬清新作被某印度创始人内涵借鉴,懒得纠缠:巧了,正准备开源,GitHub 见


向微软“复仇”!支持OpenAI、Copilot 的Zed编辑器要干掉VS Code:Rust+少插件,速度贼快


代码屎山噩梦加速来袭,都是AI生成代码的锅?


微软战略AI产品发布一周就翻车!网友:跟ChatGPT Plus 比,简直就是垃圾


OpenAI也遇“老年危机”!奥特曼对话盖茨爆料:员工整体年龄偏大,是个坏兆头


炒到9万仍被开发者厌恶,苹果号称“下一代iPhone ”的Vision Pro还会被国内争相“借鉴”吗?



你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
血腥暴力的耶路撒冷中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3百川智能发布角色大模型,零代码复刻角色与女儿参观开封包公祠Meta发布自我奖励机制,Llama在3轮训练后超越GPT-4王小川旗下百川智能千亿大模型Baichuan 3,中文评测超越GPT-4;美国启动国家AI计划推动开放式AI研究丨AIGC日报OpenAI推出在线商店GPT Store;百川智能发布角色大模型;王慧文参投老友AI公司|AIGC周观察第三十期AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5新中国联邦暴打民运人士实录AI早知道|自定义ChatGPT商店下周上线;腾讯推出语音识别大模型;美图大模型上线苹果iOS 18将搭载生成式AI;谷歌Bard最新排名超GPT-4;百川发超千亿参数大模型Baichuan 3丨AIGC大事日报AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G超越GPT-4,Claude 3超大杯成新王!无题测评数据超越GPT-4,谷歌推出全新AI模型Gemini效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜突然爆火!超越GPT-4.0?这一产品引爆AI概念!飞行汽车延续涨势,昙花一现还是星辰大海...hé bàng?hé bèng?百川智能上新超千亿大模型Baichuan 3,冲榜成绩:若干中文任务超车GPT-4郭文贵先生爆料傅希秋:披着人权光环的最大蛇头超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源Claude 3全面超越GPT-4?我们上手实测了一波。今日arXiv最热NLP大模型论文:北京大学警惕ChatGPT等大模型遏制人类的创新能力大模型新王诞生!Claude 3首次超越GPT4新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级JHU/WashU/UCSB三校放榜!JHU缩招13%!WashU录取缩水...全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像超越GPT-4,Google发布大模型Gemini/苹果明年初或将推出多款新品/五月天阿信回应假唱风波一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。