「百模大战」2024走向何方？对话潞晨科技尤洋：像做PPT一样开发大模型

2024-01-03 12:01

「单机开发模型」的时代来了？

作者 | 三北

编辑 | 漠影

进入2024年，随着大模型加速产业化落地，以及MoE（混合专家模型）等大模型技术发展，Llama 2等百亿级参数的模型大有可为，有望在实战场景中以低成本赶超GPT-4等万亿级参数超大规模的模型。

潞晨科技创始人尤洋告诉智东西：“我们完全可以用一台一体机完成模型的微调和部署。”开源大模型让更多企业无需从头开始训练，可以更注重低成本的微调和部署，因此大模型开发的过程也可以变得更加轻量化。

潞晨科技创立于2021年7月，创始人尤洋是加州伯克利大学博士、新加坡国立大学计算机系的校长青年教授，曾创造了ImageNet、BERT、AlphaFold、ViT训练速度的世界纪录，技术至今被微软、谷歌、英伟达等科技巨头广泛采用。

2023年11月，潞晨科技推出了大模型训推一体机，单机支持千亿参数大模型，能够帮助企业像做PPT一样简单快速地完成大模型开发，模型训练/推理加速2-10倍，且效率和成本数倍优化。这意味着大模型开发与应用的门槛被大大降低。

尤洋透露，推出仅仅一个多月之后，这款名为Colossal-AI大模型一体机的产品已获得了金融、医学、能源、零售等领域的标杆客户，为公司获取数千万元营收。而加持一体机的大模型开发系统Colossal-AI，目前已获得GitHub星数超3.5万颗，细分赛道排名世界第一。

2024年有望成为大模型的落地元年。行业将面临什么样的新趋势？开源大模型如何跑赢GPT-4等超大模型？“单机炼模”在实战中表现如何？通过对话尤洋，智东西对此进行了深入探讨。

▲潞晨科技创始人、新加坡国立大学计算机系的校长青年教授尤洋

01.

大模型进入落地元年

“单机炼模”成新趋势

在2023年，大模型规模动辄上万亿参数，用一台服务器去训练，几乎是不敢想的事。

进入2024年，情况正在改变：

市场不再一味地追求模型的超大规模参数。「百模大战」的焦点由2023年的大模型转向大模型产业化落地，大模型需要验证应用效果。在这种背景下，一方面，市面上的万亿级参数的通用大模型继续拼杀，最终可能只剩下几家；另一方面，百亿级参数大模型依靠传统行业数据，结合场景，有望开拓出一片新市场。

同时，很难说Llama 2等百亿级参数规模开源模型不够用了。

尤洋告诉智东西，近期欧洲Mistral AI开源的MoE模型，加上Llama 2这类开源大模型，其实已经能满足大部分用户业务需求。

MoE是一种基于稀疏MoE层的模型架构，处理输入数据时只有少数专家模型被激活或者使用，在训练和推理上表现出显著优势，达到节省计算资源的效果，Mistral AI、MiniMax等知名大模型创企最近都透露了MoE进展；此前7月，外媒SemiAnalysis曾曝GPT-4采用的就是MoE方案，16个千亿级参数的专家模型结合而来。现在，MoE成为创企突围GPT-4的一大重要捷径。

与此同时，全球基于Llama 2系列等模型开发的金融、办公、医疗、教育等各行业的大模型已经开始崭露头角，在一些领域落地效果并不比GPT-4差。

这些迹象，都意味着百到千亿级别的大模型将有较大市场发展空间。

尤洋告诉智东西，我们完全可以用一台一体机去微调和部署，让训练大模型像做PPT一样简单，并实现成本和效果最优化。

很多时候，用户并不需要从头做大模型预训练，而只需要对Llama 2等开源大模型结合业务数据进行微调，微调数据可能只有预训练大模型的1%~1‰，因此训练的时间和成本也会降低数个数量级。当模型训练完后投入应用，需要高效的推理部署优化。随着业务的发展，模型又会有多次小规模迭代的需求。

这些工作，在2024年都将可以被一台服务器胜任。

可以预测，随着大模进入产业化落地元年，“单机炼模”将成为一个新的趋势。

02.

直击行业痛点

让大模型开发像做PPT一样简单

并不是所有的服务器都适合“单机炼模”。

部署大模型算力，很多投入企业面临这样的痛点：拿到服务器后还有很多工作要做，可能需要长达30天甚至更久才能把环境、框架、模型搭建起来，训练需要多次试错迭代，最终还需要优化推理部署进业务。模型开发的技术门槛和团队成本不低不说，开发模型的算力和时间成本负担也很严峻，产品迭代还可能赶不上竞品。

潞晨科技Colossal-AI大模型一体机直击这一行业痛点。

Colossal-AI是潞晨科技自研的一个集成了高性能计算和AI先进技术的系统，目前已成为全球基础软件市场增长最快的软件之一，基础开源部分已在GitHub上获超3.5万颗星。Colossal-AI大模型一体机则是将这一系统及解决方案，与算力硬件相结合的最新产品。

“它真正把训练部署AI大模型变得像做PPT一样简单。”尤洋对智东西说，“比如做PPT，用户不需要关注PowerPoint软件的版本，以后甚至无需下载PowerPoint软件，通过文本对话就能生成幻灯片。未来只有达到这种状态，整个AI生产力才会解放。”

尤洋告诉智东西，Colossal-AI大模型一体机刚刚推出一个多月时间已落地多家客户，取得阶段性成果。客户大致分为两类：一是有数据隐私要求的，比如金融行业客户；二是众多传统行业，如车厂、医药、石油等行业客户。目前Colossal-AI大模型已为公司取得了数千万元的营收，并保持高速增长。

“95%有AI需求的用户都可以用Colossal-AI大模型一体机满足。即便是愿景规模比较大的用户，将其作为早期选择也是非常合适的。”尤洋告诉智东西。

同时，Colossal-AI大模型一体机易扩展。面对其他5%有大规模模型训练需求的用户，潞晨科技推出了Colossal-AI云平台及私有化部署服务，可以在云端或私有算力集群，提供从数台服务器到千卡集群的算力支持和全面高性能解决方案。

▲潞晨科技Colossal-AI大模型一体机简介

用Colossal-AI大模型一体机“炼模”，将更加省钱、省时、省事：

1、省钱：一台机器解决模型开发全流程问题和实现模型应用部署。一体机支持大模型训练和推理两用，提供Llama、Falcon、MoE等丰富的大模型案例，支持用户用更少的算力成本开发大模型。

2、省时：把技术落地成标准化解决方案，结合其多年在系统层面的加速技术，支持模型训练/推理加速2-10倍，提升客户产品的迭代效率。

3、省事：提供充足的易用性，让开发大模型像做PPT一样简单，用户只需要改几行代码，最多花两三个小时就把大模型搭建起来。潞晨科技的理念是为用户屏蔽底层技术难题，让用户只需要关注速度、成本、模型效果等核心事宜。

可以看到，“单机炼模”不仅意味着机器少了，更意味着大模型开发及应用的门槛显著降低。

03.

硬件不够用

大模型行业向软件要效率

虽然大模型开发和应用的门槛正在降低，但面临的算力挑战依然严峻，提高算力效率仍是2024年大模型行业的重中之重。

“高端芯片不足，更能体现出软件的价值。”尤洋告诉智东西。

比如未来H100等高性能GPU在国内可能难以获得，可获得的GPU硬件效率可能缩水数倍。在这一情况下，我们可以把多个性能相对较低的GPU联合起来，去模拟出一个高性能GPU的效果，这就是Colossal-AI最擅长的部分。同时，对于替代硬件，Colossal-AI也早已与多家厂商达成合作，实现低成本兼容适配和性能优化。

向软件要算力效率，尤洋及其团队已深耕多年。

2018年，尤洋提出的LARS优化器将AlexNet模型的训练时间缩短到24分钟，成果获国际并行处理大会（ICPP）最佳论文奖；2019年，他又提出了LAMB优化器，将BERT的预训练时间从三天三夜缩短至76分钟，比Adam优化器快72倍，创造机器学习领域的新纪录。

基于这样的积累，潞晨科技推出的Colossal-AI在大模型浪潮中脱颖而出，成为享誉全球的AI大模型基础设施。

用户在进行分布式大模型训练和部署时面临极高成本迁移、内存效率优化、扩展性等多个方面难题，Colossal-AI在大模型一体机的构建时就已为用户解决。

具体来说，Colossal-AI在异构内存管理系统、N维并行系统和低延时推理系统三部分打造了护城河：

1、异构内存管理系统：基于Colossal-AI的异构调度系统，用户只需要写一行代码就能对GPU内存、CPU内存、硬盘实现高效动态管理，可将硬件的模型容量提升百倍。

2、高效N维并行系统：基于Colossal-Al的N维并行技术，潞晨科技独创序列并行，打造了更高维度的张量并行在内的多种并行策略，易用性极佳，仅需极少量修改即可快速部署各种复杂并行策略，最大化发挥硬件性能。

3、低延时推理系统：潞晨科技采用了包括内存管理、张量并行技术，以及剪枝蒸馏等一系列优化技术，从整体的部署方式和模型本身的优化两方面下手，最大化加速模型推理。

罗马非一日建成。正是由于在大模型系统优化有多年积累，潞晨科技才能够在这波大模型浪潮中拔得头筹。近期，潞晨科技刚刚完成了近亿元的A+轮融资，背后则是对其技术、产品、生态、客户及团队等多方面能力的认可。

▲潞晨科技展台

04.

结语：降低大模型开发门槛

解放AI生产力

进入2024年，「百模大战」中的更多大模型将进入产业实战，一方面，万亿级的头部大模型依然在许多场景中占据统治地位，需要大规模算力集群；另一方面，很难说百亿到千亿级别的大模型不够用，结合行业数据，可能发挥出比大规模模型更好的效果，这也使得“单机炼模”成为可能。

工欲善其事，必先利其器。潞晨科技Colossal-AI大模型一体机的推出，为有大模型需求的厂商提供了大模型训练的加速器、算力的加成包和效果的放大器。其背后的理念更值得提倡，那就是让大模型开发变得像做PPT一样简单，这也是构建AI基础设施，所能直接展现的解放AI生产力的意义所在。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章