不到1000行代码,PyTorch团队让Llama 7B提速10倍
机器之心报道
编辑:陈萍
PyTorch 团队亲自教你如何加速大模型推理。
Torch.compile:PyTorch 模型编译器, PyTorch 2.0 加入了一个新的函数,叫做 torch.compile (),能够通过一行代码对已有的模型进行加速; GPU 量化:通过降低运算精度来加速模型; Speculative Decoding:一种大模型推理加速方法,使用一个小的「draft」模型来预测大的「目标」模型的输出; 张量并行:通过在多个设备上运行模型来加速模型推理。
© THE END
转载请联系本公众号获得授权
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章