Adam有了mini版:内存占用少一半,吞吐量提升50%
编辑:panda
论文标题:Adam-mini: Use Fewer Learning Rates To Gain More 论文地址:https://arxiv.org/pdf/2406.16793 实现代码:https://github.com/zyushun/Adam-mini
如图 4 (a) 和 (b) 所示,Adam 的表现优于最优的单学习率方法。这符合预期。 如图 4 (c) 和 (d) 所示,这里研究了其 Hessian 是 (a) 的一个密集子块的新问题。该团队探究了针对这个问题的最优单学习率方法,结果发现其表现优于 Adam,即使 Adam 分配的学习率要多得多。(a) 的所有三个子块都有类似的现象。 如果收集 (2) 中的那些最优学习率,并将其用于梯度下降的一个「逐块」版本,那么其在原始问题上的速度会比 Adam 快,见图 4(b) 中的绿线。
对于 Adam:
对于 Adam-mini:假设分片方式为 (1, 2, 3) 和 (4, 5),则
留住用户,AIGC如何通过个性化提升转化率?
提升直播间转化率,AIGC复盘如何留住用户?
聊到客户心坎里,金牌话术生成让小白秒变“老司机”?
销售Copilot,基于大模型的销售助手究竟是噱头还是真香?
识别海报二维码或点击阅读原文,立即报名直播。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章