不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手|Karpathy转赞
新智元报道
新智元报道
【新智元导读】现在,34B Code Llama模型已经能够在M2 Ultra上的Mac运行了,而且推理速度超过每秒20个token,背后杀器竟是「投机采样」。
「投机采样」加速推理
在单个输入token上转发LLM所需的时间,与在K个输入token上批量转发LLM所需的时间相同(K比你想象的要大)。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章