Redian新闻
>
「新智元大模型」上岗!0代码搞定,只需四步精调,写文超6

「新智元大模型」上岗!0代码搞定,只需四步精调,写文超6

科技



  新智元报道  

编辑:编辑部
【新智元导读】这两天,刚刚空降编辑部的这名新员工,写文章、起标题,样样都很溜。谁能想到,这背后竟是因为腾讯云的大模型平台,把大模型精调的门槛给打下来了。

最近,公司的编辑部来了一位「新同事」。

选题会一结束,小编们还在吃早饭呢,ta就已经开始噌噌出活了。

这位同事是什么来头?故事还要从这里说起——

热闹了大半年后,大模型显然已经度过了「尝鲜期」。

虽然现在的业内共识是:一定要落地,一定要产生价值。但如何训练、如何精调、如何部署等等专业壁垒,却铸成了一道道高墙。

就在昨天的2023腾讯全球数字生态大会上,腾讯首次对外公布了腾讯混元大模型进展,并且宣布从技术底座、平台能力、智能应用三大维度升级腾讯云MaaS能力。

其中,腾讯云MaaS平台不仅包括了自研腾讯混元大模型底座,而且还支持业内20余款主流开源模型。升级后的腾讯云行业大模型精选商店,可以让用户更快速、更便捷地构建专属自己的大模型。

于是,一个令人兴奋的脑洞,正在编辑部办公室酝酿中……

四步训出「新智元」大模型


既然腾讯云的大模型平台可以让我们快速搭建一个自己的专属大模型,还能在平台上实现一键部署。

那不如就搞个新智元的大模型?让它作为编辑部的新任员工——帮我们写稿!

说干就干。

在学习了官方的文档之后发现,我们惊喜地发型:精调一个「新智元大模型」,竟然4步就能搞定!

第一步:创建挂载文档

首先,在腾讯云TI平台上创建一个用于存放数据的CFS文件存储系统。

然后,新建一个Notebook实例,并将配置好的CFS挂载到该容器实例上。

接下来,是非常重要的一步,数据准备。

为此,我们整理了近期新智元发表的文章。

第二步:选择模型、启动训练

进入「大模型精调」页面后,可以看到能够选用的各类大模型。

其中,除了腾讯自研的大模型外,还有Llama 2、Falcon、Dolly、Vicuna、Bloom、Alpaca等20多款主流开源模型。

腾讯云之所以集成了如此丰富的基础模型,是由于用户需求千变万化,不同行业和场景对模型要求不尽相同,用户希望能够在多样的产品做出选择。

基于这些模型,企业可以通过结合自身数据进行训练和精调,打造出更实用的智能AI应用。

然而,新的问题又随之而来:「这么多模型,我到底该选哪个才好」?

不着急,这个问题鹅厂也想到了,针对用户可能存在的「模型选择困难症」,平台推出了「快速试一试」功能。

你只需要点几下鼠标,就可以在TI平台上测试自己感兴趣的模型是不是符合实际的场景需求,期间完全不需要去进行复杂的手动搭建。

在这里,我们选用了能够一键试用的模型——腾讯自研「多行业客服场景大模型」。

选定基底模型之后,就到了精调「新智元大模型」的时间了。

整体而言,TI平台支持SFT和LoRA这两种常见的精调模式。

其中,SFT属于全量的微调。如果数据量大的话,SFT的效果就会足够好,可以视为对模型进行一次整体的重训。

而LoRA并不改变原有模型,是额外增加一个小参数矩阵,成本相对较低。只需使用少量数据,就可以给模型在特定任务上的能力进行补充和强化。

接下来,再配置一下参数,就可以开始模型的训练了。

整个过程,小编一行代码都没有编辑,就直接开启大模型精调了!

第三步:监控训练、查看输出

模型开始训练时,我们可以随时监控任务训练的过程。

TI平台提供自定义训练指标的上报接口,只需将重点关注的指标进行上报,便能够在页面进行可视化监控。

同时,平台还提供包含GPU利用率、网络带宽利用率等和多机多卡训练相关的监控指标。

经过全面升级后的腾讯云TI平台,可以提供模型训练所需的各种能力:

腾讯云TI平台提供的多机多卡、断点续训的能力,能够保障模型训练任务稳定高效地运行。

其次,训练监控能力,可以实时监测训练指标和资源利用率情况。

然后,任务管理能力,可自动管理模型多次迭代的训练任务,将每次训练任务进行超参快照记录,好处在于能够快速还原训练现场。

最后,腾讯云TI平台还支持记录模型中间结果checkpoint,可以选择指标最优的模型,进行发布部署、调用。

升级后的腾讯云TI平台优势在于,模型训练过程中出现问题后,客户能够及时检测,发现问题后纠正。

在训练过程中,我们会不可避免地遇到一些问题。

举个栗子,大模型训练过程中,周期长,因为各种因素会出现中断。

关于Meta内部的一次模型训练日志显示:

在训练完成到30%左右处,研究人员在两个星期内,因为硬件、基础设施或实验稳定性问题,重新启动了40多次。

可见,训练过程中「断点续训」对于模型连续性训练非常重要,同时还能为研究人员节省大量时间。

比起小模型,大模型的训练成本相对较高。

而TI平台提供的一大优势就是,能够让训练任务排队队列调度,实现自动化高效利用集群资源。

另外,TI平台还集成了一些巡检工具,针对常见故障,比如GPU掉卡、ECC异常、RDMA网络故障等常见的问题进行自动化排查,从而并及时解决问题。

在训练结束之后,我们就得到了精调后的「新智元大模型」。

总结来说,得益于TI平台的全面升级,我们在精调「新智元大模型」的整个过程中,体验都非常丝滑。

据介绍,TI平台在算力方面,接入了腾讯云HCC高性能计算节点及星脉高性能计算网络,可提供3.2Tbps的网络带宽;而在存储方面,也接入了具备TB级吞吐能力和千万级IOPS的高性能存储,可在跨机器的多机多卡训练中,性能有了大幅提升。

此外,全新升级的太极Angel大模型加速框架,通过异步调度优化、显存优化、计算优化等方式,相比行业常用方案性能提升了30%以上,推理加速比达到了2倍。

可以说,每一个环节,都在为大模型精调提速。

第四步:部署调用模型

最后,借助升级后的TI平台,我们现在就可以一键把「新智元大模型」部署成在线服务。

为了方便用户进行快速体验和生产上线,TI平台提供了页面可视化调用和API调用两种方式。

我们只需在页面中配置服务部署所需的资源,服务运行环境,服务的扩缩容策略等,即可完成服务部署。

最后,我们来验证一下,刚刚精调出的大模型究竟效果如何?

给它一段来自网上的英文原始材料,让它生成一篇关于英伟达GPU短缺的简讯。为了更贴近新智元的文风,我们要求它多用短句、多分段。

才几秒钟,新智元大模型的大作就诞生了。

整体来说可圈可点,不过,文字间难免还是有那么点AI的感觉。

解决完正文之后,那最让小编们头疼的标题效果如何?

你别说,还真有点那个味了!

现在可以宣布——新智元大模型,基本获得入驻编辑部资格!

值得注意的是,很多行业的需求实际上要复杂得多,进而也需要经过更加细致和繁琐的调试,才能最终投入使用。

除了这种通过快速问答来进行测试外,腾讯云TI平台还提供的批量测试功能——利用量化指标评估+人工主观观察模型在指定评测集上的效果。

如果发现模型效果不理想,可以先分析loss曲线,观察模型收敛情况,然后调节学习率等超参数。

更进一步的,可以分析badcase,定位出错误原因后,再去找一些相关数据做增强训练。

假如问题还是无法得到解决,或许就需要换一个基底模型,再尝试重新训练了。

鹅厂实战派,让技术更普惠

以上我们看到精调新智元大模型的不错表现,就有本次腾讯云MaaS全面升级的功劳。

其中,技术底座升级保障模型基本盘稳定,平台能力升级保证模型工具用起来顺心又顺手。

目前,腾讯云MaaS能力已在腾讯企点客服、腾讯企点分析、数智人、车载助手、AI绘画等产品中进行了有效验证。
此外,除了刚刚提到的20+主流开源模型,腾讯此次发布的自研混元大模型也是一大亮点,能够成为腾讯云行业大模型的坚实底座。
从「新智元大模型」的诞生中,我们可以看到,腾讯云能够快速、高效地帮助许多行业的客户构建专属自己的大模型以及智能应用,让千行百业都能在大模型热中分一杯羹。
大模型是今年AI界,当之无愧最火爆的话题。如果说,技术是入场票,那落地才是真正的赛点。
今年6月,腾讯出其不意,选择从行业角度切入,发力大模型。最近,他们又马不停蹄,持续迭代MaaS能力,从三大维度加速产业落地,引领效能革命。
腾讯云选择从行业大模型角度切入、深耕,离不开以往自身在技术实践中打下的基础。
一来技术能打,从数据库到计算集群都有涉猎;二来常年深耕产业互联网积累了大量的行业know-how,能够对技术应用场景有深刻的认识。
不论是推进AI研发,还是布局大模型,腾讯云的核心就是,让技术普惠。
而他们践行这个目标的路子也并不复杂:探索前沿技术、打造实用产品、通过高效平台,推进行业大模型在各个行业中落地生根。





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
天才少年稚晖君智元机器人走路进场!AI模型做大脑,目标售价20万以内腾讯混元大模型开放文生图;微软AI投资重心或转向应用和业务;国产大模型10月榜单公布丨AIGC大事日报哭泣住建局“电话已打爆”!淄博推出“旧房换新房”,只要四步清清楚楚重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源有奖 |「大有可玩 」上线,「新知爸妈团 」探秘好奇心只需四步就能构建自己的Agent!达摩院新开源框架小白也能用34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%【滋味】越简单越满足,四步搞定开洋葱油拌面!0代码复现5+生信SCl,毕业晋升都能用!(干货)一行代码搞定Http请求?强得离谱~阿里影业回应《孤注一掷》被指侵权;“天才少年”稚晖君智元机器人发布;国内首份线上非学科校外培训办学许可证下发丨邦早报3个月0代码发高分生信SCI!这个2G+资源包,你领了没?(限时免费领)个人养老“一岁啦”,五大亮点,四步搞定,快来看看!沁园春 访修道院Kloster Kappel大模型进入行业的 X 种示范| 2023 中国「+大模型」先锋案例 TOP10 评选启动真香预警!10+顶刊里都爱的美图,分分钟教会你!瞬间变高级! (0代码)芒格投资高科技公司的最重要模型:「狗鱼模型」MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型《花尾渡》(小说) 第十四章 万象更新天下先Hutool:一行代码搞定数据脱敏首发体验|我抢先在微信里用上「大模型」,腾讯混元正式开放!玩转「新兴消费市场」 宝龙商业持续制造「新惊喜」大模型生成提速2倍!单GPU几小时搞定微调,北大数院校友共同一作丨开源只需2799抢【按摩界的太空舱】!古法玉石养生按摩,只需“动动口”!瞄上留学生 缅甸电诈人员英文超好小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单调研今年 30 双「新鞋型」,模块放大、复古银等设计正令人惊艳桂枝香 岁月若风0代码破解GPT-4大脑!外国网友击穿LLM护栏,诱导AI一步步造出炸弹天然世界
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。