Redian新闻
>
实现零代码模型推理部署,Graphcore PopRT正式推出

实现零代码模型推理部署,Graphcore PopRT正式推出

公众号新闻

当你和ChatGPT聊天时,你有没有想过,在那个闪烁的光标背后,正在发生什么?


ChatGPT在收到你的输入指令后,到生产出答案的过程就是推理。AI 推理是将用户输入的数据,通过训练好的模型产生有价值信息的过程。在LLM类模型应用、自动驾驶、量化交易、搜索、推荐等很多场景中,对于AI推理效率的要求非常高。为进一步帮助克服AI应用部署的时延痛点,Graphcore搭配C600推出了高性能推理SDK——PopRT,帮助开发者实现零代码推理部署已经训好的模型,同时带来低时延和高吞吐量,极大缩短AI业务商业变现时间窗口,为企业用户赢得市场先机



PopRT构成


PopRT包括转换器、编译器和运行时:


  • 转换器

    • 提供对op-fusion、constant-folding等广泛使用的优化方法内置支持

    • 提供对FP16和FP8训练后量化的内置支持,这种训练后量化可以实现更低的时延和更高的吞吐量,并且精度损失很小

    • 支持将多个模型融合为一个

  • 编译器

    • 支持模型切分和流水线

    • 为运行时导出PopEF(Poplar可执行格式)

  • 运行时

    • 支持自动批处理

    • 支持移除填充以减少对自然语言处理(NLP)模型的无用计算(或通过移除填充对自然语言处理模型进行更有效的推理)

    • 支持针对CV(计算机视觉)模型的多模型推理


部署和运行


Graphcore始终坚持降低IPU的使用门槛,广泛支持各类主流的机器学习框架,让开发者能够在自己熟悉的环境中工作,专注创新。


PopRT优化模型可与英伟达Triton和TF-Serving一起部署,并可以通过PopRT运行时API很容易地与第三方框架和服务平台集成。


PopRT编译和运行过程


优化推理性能


搭配Grapchore C600高端推训一体加速卡,PopRT使得开发者可以“一键”零代码部署已经训练好的AI应用,可以大幅加速计算机视觉、自动语音识别、自然语言处理(BERT、GPT类)、多模态和推荐系统的AI应用的部署速度,加速整个数据中心的各项工作负载,缩短研发到商用的时间。


欲了解各类模型在C600的优异性能,请联系[email protected]



在C600上使用PopRT


C600是拟未为云和数据中心打造的高端推训一体加速卡,主打推理,兼做训练,可以支持各种主流的AI应用,在搜索和推荐等业务上别具优势。为了使得C600在推理场景发挥更大效能,PopRT在C600的基础上进一步针对推理进行了优化,低时延和高吞吐使得用户可以高效地进行推理,一键部署已经训好的模型。


现在,15亿参数量的GPT2-XL已经在C600上成功部署(详情请见本次推送二条)。在PopRT的加持下,GPT2-XL的推理延时在C600上已经达到1 ms/token的水平。这意味着在实际应用场景中,模型可以快速响应用户的请求,极大提高用户体验。



【教程】在 C600上快速使用PopRT:https://graphcore.github.io/PopRT/1.1.0/



如欲了解PopRT的更多详情,请访问:https://github.com/graphcore/PopRT





获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【谝闲分享】自述:(四) “难忘旅程”2023中关村论坛展览 | 您有一封Graphcore的邀请函等待查收不见不散,Graphcore即将亮相WIC 2023让部署更快更安全,GitHub 无密码部署现已上线剑桥华人团队搞出多模态医学大模型!单个消费级显卡就能部署,借鉴斯坦福「羊驼」而来LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理观点丨郭瑜: China provides greater policy support to boost employment百度正式推出大语言模型“文心一言”「飞蝶XR科技」完成数千万A+轮融资,自研零代码AIGC工具解放XR内容创作力|36氪首发ACL 2023长文 | 先计划再求解:提升大型语言模型的零样本链式推理迈入语义搜索领域,Graphcore拟未与Aleph Alpha扩大合作关系简道云:2023零代码全民开发白皮书@所有人,Graphcore全球开发者社区来了!Graphcore拟未帮助美国太平洋西北国家实验室利用GNN加速3D分子建模盘点当前已部署在Graphcore IPU上的AI大模型AI变独立法人拥有财产权?12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法【太强了】再次进化,GPT-4横空出世!能读图,能算题,GRE语文分数超过99%人类!GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升美股IPO|中国面料制造商 Earntz Healthcare Products 为 1100 万美元的IPO提交文件并设定条款从 polyrepo 到 monorepo,前端代码仓库改造工程实践Spotify付费用户破2亿,50%黑胶消费者没有唱机,YouTube Music正式推出播客开启 eBPF 魔法,零代码修改实现可观测性阿贡国家实验室向全球研究人员提供Graphcore Bow IPUNLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录各种性ChatGPT正式推出APP;华为发布手表、平板等新品;Epic/Steam分别喜加一苏炳添起诉网易侵权;阿里云正式推出大语言模型通义千问;京东零售取消事业群制;联合国将官宣印度成人口第一大国丨邦早报OpenAI正式推出ChatGPT iOS版APP!!!TEMPO-HCM试验发布,HCM患者进行长程心电图监测或可发现更多的心律失常| EHRA 2023回国惨死的董时光Graphcore:英国的寒武纪为何触礁?“打包”BERT,Graphcore助力Pienso大语言模型更高效再次进化,GPT-4横空出世!能读图,能算题,GRE语文分数超过99%人类!太强了..所谓美国打南斯拉夫中国大使馆是为了销毁隐形机残骸是无稽之谈。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。