推演语言模型的大小与计算开销
本篇博客将概述如何推导模型大小与计算(资源)额外开销之间的权衡(trade-off)关系,同时揭示了有办法在最小化额外开销的条件下可以大大缩减计算量最优模型的大小。然而,如果模型大小的缩减超出一定阈值,即使增加计算资源,也无法维持特定的模型性能,我们可以把这个模型的阈值称之为临界模型大小(critical model size)。
我的分析表明,临界模型大小大约降低到计算量最优模型大小的30%,而只增加了100%的额外计算开销。值得注意的是,近来的模型尚未达到这一点,例如训练了1T个token的LLaMa-7B模型,这表明训练“更小”的LLM仍有充足的空间,但需要延长训练时间。
回顾Chinchilla扩展定律
模型大小与计算(资源)额外开销
临界模型大小
LLaMA-7B和SantaCoder
该模型具有6.9B个参数和1000B个训练token,总计算资源预算为4.14e22 FLOP。 根据这一计算资源预算,最优计算模型的参数约为12.52B个,并在550B个token上进行训练。 我们可以查看哪个扩展因子取多大值与LLaMA-7B的参数和训练token数量更为“接近”。我们发现,在=0.57的情况下,可以得到一个具有7.13B个参数和1088B个训练token的合理配置。 额外计算资源开销大约为12%。
该模型具有1.1B个参数和236B个训练token,总计算资源预算为1.56e21 FLOP。 根据计算资源预算,最优模型的参数约为2.79B个,并在93B个token上进行训练。 对于SantaCoder来说,要找到一个好的配置可能比较困难,但如果K=0.46,我们就可以在258B个token上训练参数为1.29B的模型。 额外计算资源开销约为24%。
不同的k_n训练token
当 =0.5 时,建议在1万亿个token上训练参数为5B的模型,在10万亿个token上训练参数为34B的模型。 当 =0.3 时,建议在2.8万亿个token上训练参数为3B的模型,在28.4万亿个token上训练参数为21B的模型。 作者可能已经将论文中的 和 参数做了四舍五入。因此,我对这两个参数的值做了少许修改, 让=0.036 、 =0.283 ,以更好地适应表A3的扩展定律预测。其余参数保持不变A=406.4,B=410.7,E=1.62。 需要注意的是,Chinchilla系数取决于数据集,而我们不知道该数据集是什么。因此,结果可能会因为使用不同的训练数据而有所变化。
不足
结论
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章