Redian新闻
>
实现零代码模型推理部署,Graphcore PopRT正式推出

实现零代码模型推理部署,Graphcore PopRT正式推出

公众号新闻

当你和ChatGPT聊天时,你有没有想过,在那个闪烁的光标背后,正在发生什么?


ChatGPT在收到你的输入指令后,到生产出答案的过程就是推理。AI 推理是将用户输入的数据,通过训练好的模型产生有价值信息的过程。在LLM类模型应用、自动驾驶、量化交易、搜索、推荐等很多场景中,对于AI推理效率的要求非常高。为进一步帮助克服AI应用部署的时延痛点,Graphcore搭配C600推出了高性能推理SDK——PopRT,帮助开发者实现零代码推理部署已经训好的模型,同时带来低时延和高吞吐量,极大缩短AI业务商业变现时间窗口,为企业用户赢得市场先机



PopRT构成


PopRT包括转换器、编译器和运行时:


  • 转换器

    • 提供对op-fusion、constant-folding等广泛使用的优化方法内置支持

    • 提供对FP16和FP8训练后量化的内置支持,这种训练后量化可以实现更低的时延和更高的吞吐量,并且精度损失很小

    • 支持将多个模型融合为一个

  • 编译器

    • 支持模型切分和流水线

    • 为运行时导出PopEF(Poplar可执行格式)

  • 运行时

    • 支持自动批处理

    • 支持移除填充以减少对自然语言处理(NLP)模型的无用计算(或通过移除填充对自然语言处理模型进行更有效的推理)

    • 支持针对CV(计算机视觉)模型的多模型推理


部署和运行


Graphcore始终坚持降低IPU的使用门槛,广泛支持各类主流的机器学习框架,让开发者能够在自己熟悉的环境中工作,专注创新。


PopRT优化模型可与英伟达Triton和TF-Serving一起部署,并可以通过PopRT运行时API很容易地与第三方框架和服务平台集成。


PopRT编译和运行过程


优化推理性能


搭配Grapchore C600高端推训一体加速卡,PopRT使得开发者可以“一键”零代码部署已经训练好的AI应用,可以大幅加速计算机视觉、自动语音识别、自然语言处理(BERT、GPT类)、多模态和推荐系统的AI应用的部署速度,加速整个数据中心的各项工作负载,缩短研发到商用的时间。


欲了解各类模型在C600的优异性能,请联系[email protected]



在C600上使用PopRT


C600是拟未为云和数据中心打造的高端推训一体加速卡,主打推理,兼做训练,可以支持各种主流的AI应用,在搜索和推荐等业务上别具优势。为了使得C600在推理场景发挥更大效能,PopRT在C600的基础上进一步针对推理进行了优化,低时延和高吞吐使得用户可以高效地进行推理,一键部署已经训好的模型。


现在,15亿参数量的GPT2-XL已经在C600上成功部署(详情请见本次推送二条)。在PopRT的加持下,GPT2-XL的推理延时在C600上已经达到1 ms/token的水平。这意味着在实际应用场景中,模型可以快速响应用户的请求,极大提高用户体验。



【教程】在 C600上快速使用PopRT:https://graphcore.github.io/PopRT/1.1.0/



如欲了解PopRT的更多详情,请访问:https://github.com/graphcore/PopRT





获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
剑桥华人团队搞出多模态医学大模型!单个消费级显卡就能部署,借鉴斯坦福「羊驼」而来美股IPO|中国面料制造商 Earntz Healthcare Products 为 1100 万美元的IPO提交文件并设定条款Graphcore:英国的寒武纪为何触礁?【谝闲分享】自述:(四) “难忘旅程”再次进化,GPT-4横空出世!能读图,能算题,GRE语文分数超过99%人类!太强了..从 polyrepo 到 monorepo,前端代码仓库改造工程实践不见不散,Graphcore即将亮相WIC 2023NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录让部署更快更安全,GitHub 无密码部署现已上线开启 eBPF 魔法,零代码修改实现可观测性「飞蝶XR科技」完成数千万A+轮融资,自研零代码AIGC工具解放XR内容创作力|36氪首发TEMPO-HCM试验发布,HCM患者进行长程心电图监测或可发现更多的心律失常| EHRA 2023“打包”BERT,Graphcore助力Pienso大语言模型更高效2023中关村论坛展览 | 您有一封Graphcore的邀请函等待查收简道云:2023零代码全民开发白皮书迈入语义搜索领域,Graphcore拟未与Aleph Alpha扩大合作关系OpenAI正式推出ChatGPT iOS版APP!!!Graphcore拟未帮助美国太平洋西北国家实验室利用GNN加速3D分子建模LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理各种性回国惨死的董时光观点丨郭瑜: China provides greater policy support to boost employment@所有人,Graphcore全球开发者社区来了!ChatGPT正式推出APP;华为发布手表、平板等新品;Epic/Steam分别喜加一所谓美国打南斯拉夫中国大使馆是为了销毁隐形机残骸是无稽之谈。GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升ACL 2023长文 | 先计划再求解:提升大型语言模型的零样本链式推理苏炳添起诉网易侵权;阿里云正式推出大语言模型通义千问;京东零售取消事业群制;联合国将官宣印度成人口第一大国丨邦早报12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法AI变独立法人拥有财产权?盘点当前已部署在Graphcore IPU上的AI大模型Spotify付费用户破2亿,50%黑胶消费者没有唱机,YouTube Music正式推出播客百度正式推出大语言模型“文心一言”【太强了】再次进化,GPT-4横空出世!能读图,能算题,GRE语文分数超过99%人类!阿贡国家实验室向全球研究人员提供Graphcore Bow IPU
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。