Redian新闻
>
清华发布Temporal Scaling Law,解释时间尺度对大模型表现的影响

清华发布Temporal Scaling Law,解释时间尺度对大模型表现的影响

公众号新闻
 夕小瑶科技说 原创
 作者 | Axe_越

众所周知,

语言模型调参!

预训练语言模型调参!!

预训练大语言模型调参!!!

简直就是一个指数级递增令人炸毛的事情,小编也常常在做梦,要是只训练几步就知道现在的超参数或者数据配比能不能行,那该有多好。

但现在,有一篇工作似乎正在令小编的梦想成为现实,那就是清华大学提出的Temporal Scaling Law。根据他们提出的这条规则,便可以通过当前训练步来准确预测未来训练步损失(loss)的下降情况,从而可以极大程度上提高各位炼丹师的效率。

此外,正所谓“重剑无锋,大巧不工”,这篇研究还发现在训练过程中并不需要针对token position添加权重,默认的预训练模式就足以达到非常好的效果

论文标题Temporal Scaling Law for Large Language Models

论文链接https://arxiv.org/pdf/2404.17785

Scaling Law

在介绍本文工作之前,先来回顾一下2020年由Kaplan等人首次提出的Scaling Law,即对于生成式Transformer模型,测试损失与模型大小、数据集大小和用于训练的计算量之间存在幂律关系(power-law relationship)。

此后,也陆续有研究在迁移学习(transfer-learning)和多模态预训练(multi-modal pre-training)验证了scaling law的存在。

Temporal Scaling Law

1. 从Scaling Law到Temporal Scaling Law

如前文所述,Scaling Law更侧重于建立测试损失与各个静态属性之间的关系,尽管Kaplan等人也提出测试损失与训练步之间遵从幂律,但这是建立在无限训练数据和训练步数前提下的,而这显然不符合我们的现实情况。

因此,本文在Scaling Law的基础上,进一步提出了考虑训练时间维度的Temporal Scaling Law,用以描述训练步与测试损失之间的关系,从而勾勒出大语言模型(LLMs)的预训练轨迹。

2. 实验设置

  • 训练数据:本文选用了Pile数据集作为预训练数据,这是一个包括22个领域的单语言大规模数据集

  • 测试数据:为度量测试损失,本文构造了两个测试数据,包括一个同样来自Pile的同分布数据集(IID-Val)和一个来自PG-19的异分布数据集(OOD-Val),都处理成1024 tokens的长度。测试损失取测试集中的所有序列损失的平均

  • 模型选择:本文选用了468M和1.2B两种大小的生成式语言模型

  • 训练方法:所有模型都需要经过400B tokens的训练,为捕捉时间维度训练进展,本文在训练阶段每隔1B个tokens创建一个checkpoint,并使用这些checkpoint进行测试损失评估

  • 度量指标:为评估temporal scaling law的预测结果对真实测试损失的拟合情况,本文采用了可决指数(coefficient of determination,)和均方误差(mean-square error,),前者表示所提出模型可解释原始数据方差的比例,后者度量所提出模型的预测结果对真实值的误差

3. Temporal Scaling Law

语言模型的本质是经过训练的统计模型,即根据先前所有token对下一个token的概率分布进行预测建模。,其中。因此,对于一个连续的序列,我们通常会认为位于后面的token会比位于前面的token更好预测,因为它有更多的背景信息,即:

为验证这一假设,本文在IID-Val数据集上用468M和1.2B模型预训练400B tokens进行实验

与假设一致,在两种大小的模型上都呈现出一致的规律,即输入序列中位置更靠前的token(背景信息更少)往往有更高的测试损失,而随着token位置越来越靠后逐渐收敛到一个固定的数值。通过以下倒数关系(reciprocal-law)的等式来拟合这种趋势,其中为token在输入序列中的位置

其中,和为拟合参数。其中,表示序列第一个token和最后一个token之间的损失差,为基于序列长度的缩放因子,为收敛因子,表示随着上下文的延长,每个token上损失的收敛值。下图展示了在468M模型的整个预训练阶段,IID Val上,和的拟合曲线。

时(表示总训练步数),收敛。因此,对于,取, 。此外还发现与学习率衰减呈强相关关系。

最终,未来测试损失可通过平均所有token位置的损失以进行预测:

对比基于Kaplan等人幂律,倒数和对数关系的baseline,通过Temporal Scaling Law的未来损失预测具有显著优势:

4. 不同token位置加权重?

前面的实验发现,位于输入序列头部的token往往更难预测,但随着训练更多的tokens以后,逐渐趋于平稳,意味着LLMs开始对于不同位置的token平等学习。那么是否还需要对不同位置的token加不同权重以促进模型学习呢?

为验证这一点,本文将默认的预训练方法与3种简单的加权方法在8个公开评测数据上进行对比,分别是

  • 头部抑制:头部10%的token计算损失时乘以0.5的权重
  • 中部抑制:中部80%的token计算损失时乘以0.5的权重
  • 尾部抑制:尾部10%的token计算损失时乘以0.5的权重

实验发现,加权方法对比默认方法并没有明显优势,基本都取得了相当的效果,证实了现行默认的预训练方法已经足够有效。

结论与展望

1. 本文贡献

本文在Scaling Law的基础上,进一步提出了Temporal Scaling Law,从而实现在时间维度上分析和预测LLMs在预训练过程中的损失变化,从而助力研究者们更好地把握LLMs预训练趋势,提高调参效率。

本文通过研究不同模型规模和训练阶段下LLMs每个token位置的损失不平衡现象,发现损失模式遵循一个倒数关系,并提供了这种模式的数学化描述。

此外,本文通过Temporal Scaling Law揭示了LLMs在不同token位置的学习模式,尽管在初始训练阶段存在不同位置token的损失不平衡,但LLMs在经过一定量token的训练以后,会对所有token位置平等学习。以此为启发,本文也验证了默认的LLMs训练范式(不使用基于位置的重加权策略)的有效性,为LLMs的预训练提供了更深入的理解。

2. 当前挑战与未来展望

  • 本文的研究主要着眼于以transformer decoder为底座的类GPT生成式模型,而没有对transformer encoder为底座的模型或混合专家模型(Mixed of Experts Models)进行探索,因此本文的结论可能并不能推广,还有待进一步验证。
  • 本文的研究主要集中在预训练阶段。而其他情况,如持续预训练,有监督微调,迁移学习,并没有被包括在内。在这些方向上,也有待做进一步验证。
  • 此外,本文仅在468M和1.2B两个规模的模型上进行了验证,并没有推广到更大尺度的LLMs上面,因此Temporal Scaling Law能否推广到更大的模型上还需要更充分的实验。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM运动对全身分子级的变革!Nature | 新研究在细胞水平上揭示锻炼对大鼠所有器官的影响AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用Databricks开源大模型DBRX,以及这对Databricks公司的商业,估值,上市等方面的影响。。。大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现Law school 申请要注意些什么?何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏置?今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHaluPowerful Tornado Kills 5 as Extreme Weather Batters Guangdong开源大模型火了!(附99个大模型微调模型/数据/工具)!外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生告别微软,姜大昕带领这支精英团队攀登Scaling Law,万亿参数模型已有预览版第一次,见 by law 说。。。。。。。。深圳本周六:100位产品人与AI大模型的深度对话,4位实战专家现场剖析产品经理的新战场今日arXiv最热大模型论文:何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏见click bait flow n numbers up (ZT)清华、智谱AI团队:Loss才是涌现的关键,而非模型参数最新研究:超加工食品对大脑的影响今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限名人应不应该有隐私--从英国凯特王妃P照片说起今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMathMeta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事堪忧未来-美撒开科幻级战争大网今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力全面解析RLHF,PPO,DPO,Flash Attention,增量学习等大模型算法图灵奖得主Bengio:突破大模型当前局限,需要超越Scaling Law的新方法【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!房前华盛顿山楂树四、北美红雀觅食篇今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型Npj Comput. Mater.: 跨越尺度界限—香港科学家开发多尺度仿真技术探索位错动力学The Shanghai Temple Offering Noodles for the Soul有没有父母长期住in law suite的? 能不能讲讲亲身感受?今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术博主发文的真实和虚假AI早知道|淘天集团自研大模型“淘宝星辰”上线;Gemini Pro1.5向所有人开放;Suno正式发布V3音乐生成模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。