Redian新闻
>
终端承接大模型:不能承受之轻?

终端承接大模型:不能承受之轻?

科技
小米创始人、董事长雷军在年度演讲中介绍小米大模型
近日,联发科正式宣布与百度联合发起飞桨和文心大模型硬件生态共创计划,双方将共同推进联发科硬件平台与飞桨和文心大模型的适配,支持基于联发科芯片的智能手机、汽车、智能家居、物联网等终端设备运行文心大模型;小米创始人、董事长雷军在年度演讲中也表示,小米已经在手机上跑通了13亿参数的大模型,轻量化和本地部署是小米大模型技术的主力突破方向。
作为连接多个生活场景、硬件消费市场、信息消费市场、基础通信和互联网应用的枢纽,手机等智能终端在AI大模型时代愈发关键。当大模型部署在终端,芯片作为算力底座如何更好地与之适配,也成为业内热议的话题。
大模型轻量化是重要发展方向之一
当前,ChatGPT引领的生成式AI大模型风潮已经席卷全球,人工智能正在从云端走向终端。记者注意到,除小米和联发科之外,谷歌、微软和苹果等厂商也在发力终端大模型,轻量化已成为大模型在终端部署的重要发展方向。
全球大模型分布情况
来源:中国科学技术信息研究所《中国人工智能大模型地图研究报告
比如,今年5月,谷歌发布了适用边缘的大模型PaLM2。具体来看,PaLM2大模型一共有四种规格,分别是Gecko(壁虎)、Otter(水獭)、Bison(野牛)和Unicorn(独角兽)。其中,Gecko非常轻量,可在移动设备上工作。记者了解到,一个更轻量但具有更高质量的模型能够显著提高推理效率并降低服务成本,使模型的下游应用程序适配更多应用程序和用户,使AI边缘部署成为可能。
谷歌的竞争对手同样不甘落后。7月份,苹果正式宣布启动开发AppleGPT,加入终端AI大模型战局。据了解,AppleGPT是苹果公司基于其自研的Ajax框架开发的AI工具,目前已在苹果公司内部展开小范围内测。
同时,微软开源了DeepSpeedChat训练模型、Meta开源LLaMA,在AI开发者中快速兴起基于LLaMA的训练风潮,加速Lora等训练方法的渗透。据悉,Deepspeed与Lora模型给中小开发者提供了低成本、快速训练专属于自己的“小模型”的完整工具,加速建立大模型梯度分布的格局。
芯片厂商方面,高通在MWC 2023大会发布全球首个运行在Android 手机上的Stable Diffusion终端侧演示。据介绍,Stable Diffusion模型参数超过10亿,高通利用其AI软件栈对模型进行量化、编译和硬件加速优化,使其成功在搭载第二代骁龙8移动平台的手机上运行。
ChatGPT 在芯片自动生成各个领域的开创性创新

数据来源:中科院计算所
在AI计算的实现上,软件和硬件同样重要,因为必须在端侧做到运算更快、效率更高,并推动AI应用在广泛终端上的部署和普及。记者了解到,高通早在2022年6月就推出了AI软件栈(Qualcomm AI Stack),支持包括TensorFlow、Pytorch和ONNX在内的所有主流开发框架,所有runtimes(运行时,即某门编程语言的运行环境)和操作系统。借助高通AI软件栈,开发者在智能手机领域开发的软件可以快速扩展至汽车、XR、可穿戴设备等其他产品线进行使用。
高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar表示,未来公司需要加大终端侧技术上的研发,尤其是进一步提升量化的算法。例如服务器上训练的模型一般采用32位浮点运算(FP32),而其在手机端现在能够支持INT4计算,这能大大提高端侧的处理能力。
大模型在终端的轻量化部署需要芯片在算力与功耗之间找到平衡点。赛迪顾问研究员邓楚翔对《中国电子报》记者表示,大模型“由云向端”趋势,对手机、可穿戴设备、智能家电等电子电器产品SoC中GPU算力与功耗平衡提出了更高要求。特别是在手机等终端产品中,“便利性”是第一要素,因此大模型在参数上会进行适度压缩,算力芯片需要同时考虑算力与功耗比。同时,当大模型应用于终端领域时,低延时响应能力也是对专用GPU性能的重要评判指标。
事实上,在终端应用场景,芯片、硬件等主要进行的是推理过程。根据应用场景的不同,不同大模型对硬件需求也是不一样的。
“比如,需要随时更新学习数据的通用大模型,终端大模型应用需要端云协作,对硬件的互连性能和网络情况有较高要求;有些比较‘精简’的、不需要基于在线数据的大模型应用,如内容生成大模型应用场景的一种—图片修改,就可以在终端设备中运行,但这种场景对终端设备本身的算力就有较高要求。”本土GPU独角兽厂商技术专家对《中国电子报》记者表示。
芯片面临性能与算力等多重挑战
全球众多科技企业都在积极研究AI大模型,并致力于实现大模型在终端的轻量化部署。但由于算力的参数规模太大,从算力硬件来看,由于AI芯片针对AI算法做了特殊加速设计,大多数AI训练和推理工作负载对AI芯片的性能和算力要求很高,这也让芯片面临存储、计算能力、功耗等方面的多重挑战。
“端侧和边缘设备的算力、功耗、成本往往有限,不像算力中心可以无限增加设备。因此,如何在一个资源受限的情况下去完成推理,就需要根据特定领域的特定需求去做特定优化。”澎峰科技联合创始人兼首席运营官王军辉对《中国电子报》记者表示,一方面,这需要AI软件栈对模型进行量化、编译和软件加速优化。另外一方面,针对大模型的异构计算芯片将成为未来的主流发展趋势。而其挑战在于,由于目前算法依然处于快速迭代阶段,因此投入和产出具有很高的不确定性。
从芯片架构的角度来看,异构计算将是实现终端和边缘侧大模型部署的必然选择。Arm物联网事业部业务拓展副总裁马健对《中国电子报》记者表示,边缘侧设备集成的芯片从同构CPU架构发展到异构及加速器架构,能够更好地支持大模型稀疏化后形成的小模型,使它们能够在边缘侧和端侧实现部署。
在本土GPU独角兽厂商技术专家看来,大模型部署在终端的最大技术挑战主要在于设备。这是因为终端设备往往对芯片功耗和芯片面积非常敏感,因此在算力提升上难度很大。
“这其实也是移动芯片所面临的技术挑战。摩尔定律基本走到尽头,在功耗和面积限制下,提升算力的难度巨大、成本巨大。”该技术专家认为,提升算力的解决方案主要有两方面。一方面是利用好5G通信技术带来的优势,更多采用云端计算的方式来部署大模型应用;另一方面则是加强在芯片制造、封装等方面的技术研发力度,争取突破摩尔定律,寻找新的解决方案。
大模型在终端部署前还要通过机器学习等方式进行训练。记者了解到,在算力挑战下,现阶段的大模型训练主要在云端或边缘进行。本土GPU独角兽厂商技术专家对记者表示:“大模型在训练过程需要庞大的算力,推理工作也很难在终端平台上进行计算,因此需要云端算力。对于终端设备而言,要想利用好当前大模型的这波热潮,关键还是利用好通信技术的发展,结合云端算力进行大模型的终端部署。”
延伸阅读:
我国算力总规模位居全球第二,近5年年均增速近30%
刘韵洁院士:我国在行业大模型方面有望领跑


作者丨张依依
编辑丨张心怡
美编丨马利亚
监制丨连晓东

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中长篇连载预告《星级男人通鉴》瓦格纳造反与普大帝的未来94岁米兰·昆德拉去世:他一生的智慧,都藏在《不能承受的生命之轻》8句话里对话|CBA状元陈国豪:这种荣誉,不是每个人都能承受安史之乱(上)层层向上负责的极乐幻境破灭,层层向下压榨的不可承受之重崩塌实测学而思MathGPT大模型:中小学数学解题正确率有望在全球范围内创造新 SOTA双林奇案录第三部之川黔连环案: 第三十二节百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报直播通知|生命不能承受之轻——辟谷半个月+每天长跑=让生命重启年轻化6000 字详解盘古大模型:能否撑起世界 AI 另一极?大厂混战大模型:四大流派,没有赢家通用大模型转向行业大模型:腾讯云、华为云们的下一个战场噩耗!知名作家米兰·昆德拉去世,终年94岁!曾多次获诺贝尔文学奖提名,著有《不能承受的生命之轻》毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项华为云盘古大模型:下矿坑、测台风、进产线,没时间作诗|甲子光年当 Apache Doris 遇上大模型:探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台“难以承受之重”!一个开学怎么就把家长整焦虑了?全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens急盼游客的欧洲,能承受得起“旅游税”吗?彭博终端有妙招 | 彭博终端PM <GO>:高效完成投组再平衡(实操视频)医疗大模型:转瞬即逝的昙花还是跨时代的变革?【2023WAIC】京东大模型:「知识」就是力量Moka李国兴谈SaaS+大模型:越垂直,越具象,越能挖掘出AI的价值《即将分崩离析的美国?》(2): 投奔天堂入地下彭博终端有妙招 | 彭博终端IN <GO>:覆盖各大资产类别,助您把握机遇!(实操视频)重读'普京的最佳结局'昆德拉:不能承受的生命之轻,迷途漫漫,终有一归王小川月更大模型:530亿参数但闭源,现场拷问室温超导相关问题女人最多能承受多少厘米?看完惊呆了!(科普)贾佳亚团队提出LISA大模型:理解人话「分割一切」,在线可玩暴雨过后,我们的城市能承受住考验吗?租2000张芯片做大模型:一家创业公司的生死抉择米兰·昆德拉:生命中不能承受之无意义每年445万美元数据泄露成本是不可承受之重?IBM安全让你举重若轻终端基础:Linux 终端中的目录切换 | Linux 中国
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。