盘点当前已部署在Graphcore IPU上的AI大模型

2023-05-11 11:05

AI大模型已经展现出了非常广泛的应用前景，它所表现出的强大能力也使人们看到了它的无限可能。随着AI大模型的飞速发展，高昂的成本门槛也让许多从业者对大模型望而却步，而有能力负担高额投入的从业者也面临着商业化的压力……

Graphcore（拟未）IPU非常适合运行精细化、高性能的AI计算和稀疏化计算，在功耗上亦有优秀的表现。同时，Graphcore拥有完备的软件库，可以对目前市面上80%的主流AI模型实现一键转换，实现零代码迁移且兼顾模型性能。当前已部署在IPU上的AI大模型都有哪些？IPU给它们带来了哪些提升？让我们一睹为快！

ChatGLM：无需代码优化

无损部署，实现毫秒级低延时

在ChatGLM开源初期，Graphcore IPU已经率先实现了对中英双语模型ChatGLM-6B的支持，使用IPU运行的ChatGLM-6B，通过模型并行优化和算子融合，以及诸多算子的底层优化，充分发挥IPU的近存计算架构带来的算力优势。大量的片上存储空间可以很好地支持模型参数存储，降低在推理过程中和片外存储交互的需求，打破IO bound的限制，极大地释放计算单元的能力。

运行在IPU上的ChatGLM-6B模型拥有令人印象深刻的超低延时，在FP16精度下，每个token平均耗时仅有3.5毫秒，在日常聊天、文本摘要、辅助写作、代码编写等方面，都能生成相当符合人类偏好的回答。目前ChatGLM-6B可以无损、快速地部署在IPU上，而不会因为性能优化而牺牲模型的精度和参数量，相对ChatGPT来说，ChatGLM-6B这一轻量化的模型可以在本地AI计算硬件上以较低成本部署，大大降低了用户部署的门槛。

GPT2-XL：C600加持

精度速度两手抓

如今，GPT家族模型中，十亿级参数的GPT-2已经在C600上成功部署，C600 PCIe卡集成了1个IPU，主打推理，兼做训练，在提供低延时、高吞吐量的同时不损失精度，帮助AI开发人员解决“精度与速度难两全”的痛点。

考虑到计算成本压力，GPT-2是在商业用例中逐渐被广泛应用的GPT类模型。在C600上GPT2-XL的推理延时已经达到1 ms/token的水平。即使在输入长度为512，输出长度也是512这种长序列的情况下，端到端的总延时也仅有658 ms，这意味着在实际应用场景中，模型可以快速响应用户的请求，极大地提高了用户体验。不仅如此，该模型在FP16精度下训练完成后，可以直接部署在IPU上，不需要担心模型量化带来的精度损失等问题，不仅优化了算法工程师的体验，也缩短了模型迭代的周期。同时，C600的散热设计功耗为185 W，在GPT2-XL的实际推理过程中，C600的平均功耗仅为30 W，优秀的功耗比来带颇具竞争力的TCO，十分适合需要长期运行的AIGC服务。

GPT-J：小模型高性能

降本增效解决下游任务

由于从头开始训练类似ChatGPT规模的模型所需的高成本，对于许多公司来说，像GPT-J这样更高效、高性能的小型模型是正确的选择。GPT-J现在可以在Graphcore IPU产品如Bow Pod系统和C600 PCIe卡上轻松运行，在IPU上使用Paperspace Gradient Notebooks运行，可用于推理和fine-tune。

对于下游任务，如问题回答、命名实体识别、情感分析和文本分类，GPT-J可以轻松地进行fine-tune以提供SOTA结果。在fine-tune过程中，模型会学习将给定的格式与任务进行关联。由于解决该任务所需的所有语言理解能力都已经存在于预训练的模型中，fine-tune只是为了学习提示与任务之间的关联，因此成本相对较低。

Stable Diffusion：

IPU加持算力，让想象力爆发

Stable Diffusion是AIGC技术革命的耀眼明星之一，并因其令人惊叹的图像和灵活性而深受好评。它可以提供文本到图像、图像到图像和文本引导的绘画。

Graphcore和Paperspace首次在IPU上引入了Stable Diffusion模型，以配合全新推出的高级版notebook。面向Graphcore IPU的Stable Diffusion 2.0也很快将与Paperspace Gradient Notebook一起面世。

扫描下方二维码

免费试用Stable Diffusion

Dolly 2.0：IPU赋能商用大模型

给AI以个性

在Dolly 2.0开源近两周后，Graphcore IPU便率先实现了对其的支持。作为开源的大型语言模型（LLM），Dolly 2.0可以提供类似ChatGPT的指令跟随交互性。Dolly 2.0的训练权重、源代码和数据集已在开源和商业使用许可下发布，使其成为第一个真正开放的指令微调LLM。之前的模型受制于更严格的许可，无法用于商业应用。

与Dolly互动是一个很有趣的过程。通过微调，它还可以在回答用户问题时具备特定的个性。现在，它可以与适当的安全过滤器一起使用，以获得真实世界的信息，或者只是作为一个有趣的品牌角色。Dolly 2.0可使用由Graphcore IPU驱动的Paperspace Gradient Notebook。

扫描下方二维码

免费试用Dolly 2.0