Redian新闻
>
评估AI大模型实力,别只会看算力

评估AI大模型实力,别只会看算力

科技

ChatGPT的战火,已经燃烧到第二阶段。
作者 |  ZeR0
编辑 |  漠影
去年年底,ChatGPT爆火出圈让大众意识到了语言模型的智能与魅力,随后国内外科技巨头与AI企业接连响应,推出自家AI聊天机器人。但To C只是第一战场,如今科技巨头们正将鏖战焦点转向更大的战场——To B的企业AI大模型服务。
随着多家云计算大厂公布AI大模型服务,一个关键难题摆在想要将大模型能力与自身业务做结合的企业面前:怎么选?
换句话说,怎么衡量大模型的优劣?有哪些可以参考维度?可能不少人的第一反应是看算力,毕竟ChatGPT从底座大模型训练到上线后的每日运行都非常烧钱。的确,没有算力优势是万万不行的,但这并不代表着“得算力者得天下”,除了算力之外,进入大模型落地期后,企业更需关注的是大模型全生命周期的综合体验
这就好比买手机时,大家会首先关心跑分,因为跑分越高意味着性能越好。但跑分并不等同于使用体验,在跑分相差不多时,手机的实际体验跟系统、UI设计、应用程序、隐私安全、续航能力、售后服务等很多因素挂钩。
企业选用大模型也是类似的,不仅要看算力,还要看综合体验和实效,包括大模型本身能力、大模型企业服务能力、全栈技术积累程度等。
当前企业在云平台上选用大模型服务,主要需求可分成三类:一是使用大模型的能力,实现自家产品和服务的升级;二是基于既有大模型微调出面向特定场景的专属大模型;三是租赁算力。
在这种情况下,要衡量大模型服务,具体可以参考哪些维度?下面我们将拆解来看。

01.
大模型落地,企业怎么选?
六大关键参考维度


大模型服务好不好,可以看一些硬指标。
一是高效性。影响大模型训练和推理效率的主要因素涉及整个IT技术栈,需要由算力、框架、模型(包括丰富的大模型体系)、应用构筑的四层架构相互配合提供支撑,形成很强的协同作用和高效的反馈闭环,帮助大模型调优迭代、降本增效。反映到实际数据上,可以重点关注千卡加速比、异构资源利率、模型开发迭代效率等参数。
以在这四层IT架构的每一层都做了重资产投入的百度为例,据百度集团副总裁侯震宇昨日在文心大模型技术交流会上分享,百度是全球唯一在这四层架构的各个层面都拥有领先自研产品的公司。百度AI大底座的千卡并行线性加速比达到90%以上,训练资源利用率超过70%,模型开发迭代效率提升100%
二是易用性。即上手门槛有多高,这是影响客户体验的核心因素,包括有没有与实际业务需求匹配的服务模式、能否提供从开箱即用到深度定制的服务和工具,交付和部署方式是否灵活等。
三是全面性,包括是否覆盖大模型全生命周期(从训练大模型到用好大模型)的开发、管理、应用集成服务。
四是安全性。这也是越来越多企业关心的问题,最近三星为了防止企业机密泄露还下达了“AI聊天机器人封杀令”。因此大模型服务必须有完备的安全机制,来确保模型输入输出稳定,保障数据安全。此外是否完全自主可控也影响安全性。
五是开放性。有的大模型服务支持的大模型类型有限,有的则不仅支持自研大模型,还支持多种开源大模型及其他第三方大模型。
六是扩展性。如果大模型服务支持集成更多插件,并能够对插件做更多编排,则能通过外挂应用的方式,更好地拓展大模型能力边界。

02.
全能型的大模型厨房:
既能直接用,又能自生产


目前,企业应用大模型面临诸多难点:模型体积大,训练难度高;算力规模大,性能要求高;数据规模大,数据质量参差不齐……对此,云计算企业需将模型开发、训练、调优、运营等复杂过程封装起来,通过低门槛、高效率的企业级服务平台深入产业,来为千行百业提供服务。
自3月16日文心一言邀请内测以来,百度在“AI大模型+云服务”上的排兵布阵一直备受关注。昨日,百度智能云终于公开交卷,宣布其正在内测的“文心千帆大模型平台”将提供两种服务:一是以文心一言为核心,提供大模型服务,帮助客户改造产品和生产流程;二是支持企业基于任何开源或闭源的大模型,开发自己的专属大模型

百度集团副总裁侯震宇说,文心千帆大模型平台是全球首个一站式的企业级大模型平台。所谓“一站式”是指不仅提供大模型服务,还提供大模型开发和应用的整套工具链,并支持各类第三方大模型,未来将成为大模型生产和分发的集散地。
文心千帆就相当于是一个“大模型厨房”,你可以直接端走做好的大模型菜肴成品(比如文心一言大模型),再稍微加点调料就能端给客户享用;你也可以自带食材、厨师,使用文心千帆提供的完整灶台和丰富的工具自己做菜。
从易用性来看,文心千帆提供的服务已经能够覆盖绝大多数企业诉求。目前该平台提供公有云服务、私有化部署两大交付模式,私有化部署能满足对数据监管有严格要求的企业需求。

其公有云服务将提供:推理(直接调用大模型的推理能力)、微调(通过高质量精标业务数据,高效训练出特定行业的大模型)、托管(将模型发布在百度智能云,以实现更加稳定高效的运行)三种服务,大降企业部署大模型的门槛。
为了直观展示微调大模型的操作,百度智能云AI与大数据平台总经理忻舟在现场演示了微调行业专属大模型的全过程。使用文心千帆的可视化开发工具链,企业用少量数据即可发起模型微调,最快几分钟就能训出专属大模型

其私有化部署将提供:软件授权(提供在企业环境中运行的大模型服务)、软硬一体(提供整套大模型服务及对应的硬件基础设施),租赁软硬件服务(提供机器和平台的租赁,满足客户低频需求)三种方式。
无论是哪种服务,都有助于提升大模型开发和应用的效率,让企业能更快地将算力更高效地转化成企业效益。
从高效性来看,除了前文提到的一些关键参数指标外,据忻舟透露,通过端到端优化,其文心千帆大模型平台在多级多卡训练性能上实现了更快的收敛,在全球权威AI基准评测MLPerf榜单中排名世界第一;并将三个知名千亿参数第三方开源模型BLOOM、LLaMA、GLM的分布式并行训练加速性能平均提升了150%

实现这些优化的基石是百度打造的国内首个全栈自研的AI基础设施“百度AI大底座”。百度的算力、框架、模型、应用四层AI架构都实现了自主可控,这也是它区别于其他国内云计算大厂的一大优势所在。

国内厂商少有的万卡GPU储备、提供高性价比算力的百度自研AI芯片昆仑芯、国产最大AI深度学习开源平台飞桨、丰富的文心大模型体系、连续四年蝉联中国AI公有云第一……百度手中握有的这些王牌,加上四层IT架构端到端优化,各层优势层层累加,构筑了其在提供极致大模型应用体验方面的核心护城河。基于此,文心一言启动内测1个多月后,大模型推理成本降为原来的1/10。
从全面性、扩展性来看,文心千帆提供了大模型的全流程工具链,并支持丰富应用插件,其私有化部署的软硬一体方案支持包括英特尔、超微、海光、飞腾等的各种CPU芯片以及包括英伟达、昆仑芯、海光DCU等的各种AI加速卡。这些都为企业按需选择服务提供了更高的自由度。

据悉,文心千帆未来会聚焦五个方面:海量高质量专业数据集开放、模型深度调整和高效训练、大模型高效压缩、快速模型应用编排、Prompt自动生成

03.
300余家生态伙伴
已参与文心一言内测


从产业实践进展来看,文心千帆大模型平台是国内第一梯队中的排头兵。
对内,文心千帆的技术已经被应用到搜索、推荐、地图、如流、小度等百度内部产品中。这些产品正在基于文心一言升级。这些落地实践的反馈和经验全部整合到文心千帆大模型平台中,有助于帮企业在使用大模型的过程中少踩坑。
比如百度内部办公软件“如流”借助文心千帆提供的企业搜索插件搭建了一个文心千帆AI小助手功能。过去获得一个答案平均时间约5分钟,现在小助手平均5秒就能解答一个产品或技术难题,大幅提升了工作效率。百度智能云进行了现场演示提问:“我想训练行业大模型,成本大概怎么预估?”如流小助手很快回答说:“通常需要使用500GB+的数据制作行业大模型,大概2500亿汉字,训练行业大模型大概需要10万~50万卡时。”

文心一言大模型是文心千帆大模型平台上的第一个大模型,企业在文心千帆大模型平台上,既可以直接用文心一言大模型的企业服务或者基于文心一言大模型进行微调后使用,也可以在平台上开发、管理自己的大模型。
百度智能云的金融行业应用、政务行业应用、智能创作平台、智能客服、企业知识管理、数字人直播平台等六大智能产品系列,将基于文心大模型全面升级,未来将在安全评估完成后上线。
对外,文心千帆面向首批企业客户内测以来,正在与不同领域客户联合研发,在智能办公、旅行服务、电商直播、政务服务、金融服务五大领域打造行业样板间。这些都是当前在引入生成式AI应用方面最为积极的一些业务场景。
比如在办公领域,文心一言在意图理解、PPT大纲生成、范文书写、生成待办列表、文生图等多模态生成的场景上,与金山办公的联合开发已取得进展。金山办公助理总裁田然说,文心千帆在安全合规、模型深度、迭代速度、推理性能等多个方面都有一定的优势。

百度还帮长安汽车构建了AI基础设施平台和数字人平台。现在双方基于百度文心大模型正在开发一款智能产品,赋能长安汽车的一款量产车型。
在昨天的活动现场,百度智能云与联想集团、用友、宝兰德等14家文心千帆生态伙伴举行签约仪式。百度集团副总裁袁佛玉说:“截至目前,已有超过300家生态伙伴参与文心一言内测,在400多个企业内部场景取得测试成效。”

04.
结语:"云智一体"的
智能化新基建大幕拉开


随着越来越多的行业开始接入大模型,同时开源社区日趋活跃,大模型落地生态发展正呈现欣欣向荣的景象,创新应用也正喷薄而出。目前国内大模型正呈百家争鸣之态势,没有哪家做到一家独大,大模型评测亟待有权威的评估标准,百度也正推动相关建设。
对于长期在全栈AI上做重资产投入的百度来说,大模型改写云计算游戏规则的历史性机会已经到来,而面对争夺大模型底座话语权的硬仗,百度智能云已经准备充分。它的底气从三年前提出的“云智一体”战略、全栈自研的AI基础设施布局,如今又增加了正在快速扩张生态的文心一言和兼容并包的文心千帆大模型平台。

经济学家任泽平曾预测说,"云智一体"的智能化新基建,将深刻影响我国实体经济。站在AI公有云市场前排,百度智能云如何应对快速增长的大模型批量化生产需求与AI算力普及化趋势,在后续打好手中的技术王牌?我们拭目以待。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型玩家抢购算力,国产GPU还差了一个软件生态|Chat AI社区资源-图书馆5款别致的中式好礼:今年端午,别只送粽子啦每一个人的大模型:开源BELLE项目集训练、数据、模型、评估、APP一体俄乌一周年了,中国五毛们活成了自己的笑话18个问题,90个回答,国产大模型实用性横评坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」这国产佳作,别只盯着张颂文黄圣依,别只知道去迪士尼了有感而发: Elon Musk 关于SVB数十家企业参编中国大模型标准;大模型创企获2.5亿美元投资;微软签署数十亿美元AI算力协议丨AIGC大事日报四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态Much respect for Sweden只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型上交清华提出中文大模型的知识评估基准C-Eval,辅助模型开发而非打榜夏天别只会穿T恤了,2023年最流行的“天丝衫”,防晒又高级……大模型变“小”:黑马天启开创AI模型“重度垂直”新思路,入选北京大模型行业应用典型案例百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报腾讯云公布行业大模型进展;美图推出视觉大模型;华为高管称AI算力将增500倍丨AIGC大事日报中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报矿鸿实验室揭牌,华为用AI大模型实现煤矿智能化|最前线什么都嗑只会害了你?不会!只会让我营养均衡!别只会穿T恤了!入夏第一件“天丝衫”,防晒又高级!阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl天鹅展翅H800国内首发!腾讯云推出大模型算力集群,集群算力提升3倍北京内推 | 微软亚洲研究院招聘模型压缩方向研究型实习生(可远程)机器学习与因子模型实证:怎么进行模型训练?它翻车上热搜,别只骂赵露思ThoughtWorks CTO:2025 年之前,我们会看到架构的演进,但不会看到革命可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了大模型的AB面:厂商讲算力,企业要落地三行代码调用PandaLM大模型自动实现保护隐私、可靠、可复现的大模型评估孩子哭闹,别只是讲道理
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。