强力“推背”,ChatGLM-6B在IPU上跑出3.5ms/token速度
我们很高兴地和大家分享,Graphcore(拟未) IPU已经率先实现了对中英双语模型ChatGLM-6B的支持。用户可以与IPU上的ChatGLM-6B聊天,利用ChatGLM-6B进行文本摘要、辅助写作、编写代码等等。运行在IPU上的ChatGLM-6B模型拥有令人印象深刻的超低延时,在FP16精度下,每个token平均耗时仅有3.5毫秒,即3.5秒每千token,用户发送的绝大多数请求可以在几百毫秒内得到响应,真正做到了即问即答,极大提高了用户的体验感。
目前ChatGLM-6B在IPU上以FP16精度运行,尚未进行低精度量化或模型稀疏化。这意味着该模型可以无损、快速地部署在IPU上,而不会因为性能优化而牺牲模型的精度和参数量。
中英语言模型ChatGLM-6B
在前不久的博客中,我们提到ChatGPT颠覆式地改变了AI商业模式,掀起了大模型的浪潮。但是,ChatGPT并非开源模型,它的算力支出也“令人暴风哭泣”。对于希望规模化部署大模型的企业来说,对更加易于部署的大模型的需求非常迫切。
ChatGLM-6B由智谱AI推出并开源,模型经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,具有62亿参数,相对ChatGPT来说,ChatGLM-6B这一轻量化的模型可以在本地AI计算硬件上以较低成本部署,大大降低了用户部署的门槛。
ChatGLM-6B模型现已开源,全球下载超过100万次,持续两周位列Hugging face全球模型趋势榜榜首。
使用IPU运行ChatGLM-6B
我们通过模型并行优化和算子融合,以及诸多算子的底层优化,充分发挥IPU的近存计算架构带来的算力优势。大量的片上存储空间可以很好地支持模型参数存储,降低在推理过程中和片外存储交互的需求,打破IO bound的限制,极大地释放计算单元的能力。
上述优化均已集成在Graphcore的Poplar软件栈中,包括ChatGLM-6B在内的其他大语言模型均能够在IPU上充分释放性能,不再需要艰深的代码层面优化。
对于模型部署商来说,模型性能将不再成为系统整体的瓶颈,工程师们可以专注于模型问答能力的提升和系统其他部分的优化中,充分解放了模型部署的效率。
运行在IPU上的ChatGLM-6B在日常聊天、文本摘要、辅助写作、代码编写等方面,都能生成相当符合人类偏好的回答。
一起来感受下ChatGLM-6B在IPU上 3.5ms/token的推背感:
日常陪聊
如图所示,一些日常的聊天基本做到了即问即答,为用户提供流畅舒适的多轮问答体验。
文本总结
在这个例子中,我们使用模型进行文本摘要,用以测试较长的文本输入和输出,从结果来看,每个字的生成速度几乎不受文本长度的影响。
辅助写作
在进行辅助创作的情景下,端到端的超低时延让用户的使用过程更加流畅,提高了用户的尝试意愿。
编写代码
除了中文语境中出色的表现外,ChatGLM-6B在英文聊天和英文辅助写作上也表现亮眼:
大模型已经展现出了非常广泛的应用前景,它所表现出的强大能力也使人们看到了它的无限可能。未来,Graphcore计划和智谱AI继续深化合作,共同建设和繁荣中国的大模型生态,打通大模型规模部署的“最后一公里”。
如果您想在IPU上尝试ChatGLM-6B推理,请发邮件至[email protected]与我们联系。
获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。
Graphcore中国官网
Graphcore官方微信
Graphcore微博创新社区
Graphcore知乎创新社区
微信扫码关注该文公众号作者