Redian新闻
>
强力“推背”,ChatGLM-6B在IPU上跑出3.5ms/token速度

强力“推背”,ChatGLM-6B在IPU上跑出3.5ms/token速度

公众号新闻

我们很高兴地和大家分享,Graphcore(拟未) IPU已经率先实现了对中英双语模型ChatGLM-6B的支持。用户可以与IPU上的ChatGLM-6B聊天,利用ChatGLM-6B进行文本摘要、辅助写作、编写代码等等。运行在IPU上的ChatGLM-6B模型拥有令人印象深刻的超低延时,在FP16精度下,每个token平均耗时仅有3.5毫秒,即3.5秒每千token,用户发送的绝大多数请求可以在几百毫秒内得到响应,真正做到了即问即答,极大提高了用户的体验感。


目前ChatGLM-6B在IPU上以FP16精度运行,尚未进行低精度量化或模型稀疏化。这意味着该模型可以无损、快速地部署在IPU上,而不会因为性能优化而牺牲模型的精度和参数量。



中英语言模型ChatGLM-6B


在前不久的博客中,我们提到ChatGPT颠覆式地改变了AI商业模式,掀起了大模型的浪潮。但是,ChatGPT并非开源模型,它的算力支出也“令人暴风哭泣”。对于希望规模化部署大模型的企业来说,对更加易于部署的大模型的需求非常迫切。


ChatGLM-6B由智谱AI推出并开源,模型经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,具有62亿参数,相对ChatGPT来说,ChatGLM-6B这一轻量化的模型可以在本地AI计算硬件上以较低成本部署,大大降低了用户部署的门槛。


ChatGLM-6B模型现已开源,全球下载超过100万次,持续两周位列Hugging face全球模型趋势榜榜首。


使用IPU运行ChatGLM-6B


我们通过模型并行优化和算子融合,以及诸多算子的底层优化,充分发挥IPU的近存计算架构带来的算力优势。大量的片上存储空间可以很好地支持模型参数存储,降低在推理过程中和片外存储交互的需求,打破IO bound的限制,极大地释放计算单元的能力。


上述优化均已集成在Graphcore的Poplar软件栈中,包括ChatGLM-6B在内的其他大语言模型均能够在IPU上充分释放性能,不再需要艰深的代码层面优化。


对于模型部署商来说,模型性能将不再成为系统整体的瓶颈,工程师们可以专注于模型问答能力的提升和系统其他部分的优化中,充分解放了模型部署的效率。


运行在IPU上的ChatGLM-6B在日常聊天、文本摘要、辅助写作、代码编写等方面,都能生成相当符合人类偏好的回答。


一起来感受下ChatGLM-6B在IPU上 3.5ms/token的推背感:



日常陪聊




如图所示,一些日常的聊天基本做到了即问即答,为用户提供流畅舒适的多轮问答体验。


文本总结



在这个例子中,我们使用模型进行文本摘要,用以测试较长的文本输入和输出,从结果来看,每个字的生成速度几乎不受文本长度的影响。


辅助写作



在进行辅助创作的情景下,端到端的超低时延让用户的使用过程更加流畅,提高了用户的尝试意愿。


编写代码




除了中文语境中出色的表现外,ChatGLM-6B在英文聊天和英文辅助写作上也表现亮眼:





大模型已经展现出了非常广泛的应用前景,它所表现出的强大能力也使人们看到了它的无限可能。未来,Graphcore计划和智谱AI继续深化合作,共同建设和繁荣中国的大模型生态,打通大模型规模部署的“最后一公里”。



如果您想在IPU上尝试ChatGLM-6B推理,请发邮件至[email protected]与我们联系。




获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
解放军第三代战略核潜艇,消除“龟背”,携带16枚潜射战略导弹智谱AI CEO张鹏:ChatGLM全球超过百万下载,为行业智能化降本增效|中国AIGC产业峰会LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比全方面硬刚某森!3min速干,4亿负离子养发,不到300元拿下,抢!教育|不只有ChatGPT, 这个更火的AI教育工具,被誉为K-12“推娃神器”!顶级公私校学霸都在用Hélène Binet:光的哲学家911飞机上华裔空姐邓月薇,临终前20分钟留下一份录音,还原真相盘点当前已部署在Graphcore IPU上的AI大模型不只有ChatGPT, 这个更火的AI教育工具,被誉为K-12“推娃神器”!顶级公私校学霸都在用清华系千亿基座对话模型ChatGLM开启内测,单卡版模型已全面开源美国现在的确请人难高达3.6万亿token!PaLM 2训练数据翻5倍,全新Bard对比ChatGPT有8个优势UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5陆房战斗考略之六(转贴)i5-9400f CPU with asus b365m bundle(cpu good mb faulty)沈阳老乡给我个红花君子兰大苗 我和我姐说了AIGC时代,如何在IPU上部署经济且高效的GPT模型?Belmont公私校大对比:Belmont Hill vs Belmont HighAI之下没有秘密:网友诱骗ChatGPT激活 Windows 11,ChatGPT落入陷阱!“这是AI的iPhone时刻”,芯片巨头发布ChatGPT专用GPU:速度快十倍!未来将与中国云服务商合作代码大模型综述:中科院和MSRA调研27个LLMs,并给出5个有趣挑战北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%巴黎市长将重修Châtelet 广场以方便行人“大陆高铁没靠背”,中国中车出手了!英伟达发布ChatGPT专用GPU,性能提升10倍,还推出云服务,普通企业也能训练LLM韩国地铁“防变态设计”火了!座椅变成“背靠背”,上万网友为此吵翻天.....年轻人喝茶的新生意来了?有品牌已跑出300+店韩国地铁“防变态设计”火了!座椅变成“背靠背”,引全网争论!网友:并不认为这是个好设计!ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!绝美挪威荷兰夏日之旅(十七)Akershus城堡-挪威皇宫【城事】巴黎市长将重修Châtelet 广场以方便行人清华系千亿基座对话模型ChatGLM启动内测,开源单卡版模型(10个邀请码)Google 疯狂的一周才刚结束,ChatGPT 下周又要大更新|Hunt Good 周报法院禁UCB在人民公园建学生宿舍清华第二代60亿参数ChatGLM2开源!中文榜居首,碾压GPT-4,推理提速42%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。