650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
机器之心编辑部
全参数微调的显存使用量和推理一样多,大模型不再只是大型科技公司的玩具了。
从算法的角度重新思考了优化器的功能,发现 SGD 在微调 LLM 完整参数方面是一种很好的替代品。这使得作者可以删除优化器状态的整个部分,因为 SGD 不存储任何中间状态。 新提出的优化器 LOMO 将梯度张量的内存使用量减少到 O (1),相当于最大梯度张量的内存使用量。 为了使用 LOMO 稳定混合精度训练,作者集成了梯度归一化、损失缩放,并在训练期间将某些计算转换为全精度。
LOMO 的表现明显好于 Zero-shot; 在大多数实验中,LOMO 普遍优于 LoRA; LOMO 可以有效扩展至 650 亿参数的模型。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章