Redian新闻
>
如何更好地继续预训练(Continue PreTraining)

如何更好地继续预训练(Continue PreTraining)

公众号新闻

来自:NLP工作站

进NLP群—>加入NLP交流群

写在前面

预训练(Pretraining)是一个非常消耗资源的工作,尤其在 LLM 时代。随着LLama2的开源,越来越多人都开始尝试在这个强大的英文基座模型上进行中文增强。但,我们如何才能保证模型在既学到「中文知识」的情况下,又不丢掉原有的「英文知识」呢?

今天给大家带来一篇 Continue Pretraining 的论文(来自何枝大佬,知乎@何枝),Continual Pre-Training of Large Language Models: How to (re)warm your model?

知乎:https://zhuanlan.zhihu.com/p/654463331
paper:https://arxiv.org/pdf/2308.04014.pdf

1.实验设定

作者使用一个 410M 大小的模型 Pythia,已经在 Pile数据上进行过预训练,然后在下游数据集 SlimPajama 上进行微调。

论文中直接使用 Loss 作为评估指标,即 Loss 越小,说明在上游(或下游)任务中的效果越强。

Pythia: https://huggingface.co/EleutherAI/pythia-410m-v0
Pile: https://huggingface.co/datasets/EleutherAI/pile
SlimPajama: https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama

2. 关键结论

2.1 warmup 的步数不会影响最终性能

warmup 是一种 finetune 中常用的策略,指学习率从一个很小的值慢慢上升到最大值。那么,这个「慢慢上升」的阶段持续多久是最好的呢?

作者分别使用训练步数的:0%, 0.5%, 1%, 2% 这 4 种不同预热步数来进行实验:

从上图中可以看到:当模型经过「充分」训练后,不管多长的预热步数最后的性能都差不多。

但,这种前提是「充分训练」,如果只看训练前期的话,使用更长的预热步数(黄色的线)。无论是「上游任务」还是「下游任务」,模型的 Loss 都要比其他预热步数要低(下游学的快,上游忘的慢)。

2.2 学习率越大,下游任务越好,上游任务越差

为了探究学习率对学习效果的影响,作者使用了 4 种不同的最大学习率进行对比实验,

此外,还比对了和从头训练(from scratch)模型的效果:

从图中可以看到:经过充分训练后,学习率越大(紫色),下游性能最好,上游性能最差(忘得最多)。同样,我们看前期训练,尽管紫色线条在最后的 loss 是最低的,但在前期 loss 会增加的非常大,随后下降。

PS:解释一下这里为什么这么关注训练前期,是因为在真实训练中,我们可能不一定会增强图中所示的 250B 这么多的 tokens,尤其是在模型参数很大的情况中。所以,当资源不允许充分训练的情况下,较小的学习率和较长的 warmup 步数可能是一个不错的选择。

此外,图中还能看出:未经过预训练的模型(蓝色)无论是上游任务还是下游任务,都不如预训练过的模型效果。

这鼓励我们今天在进行训练任务时,最好选择一个已经过预训练的模型上继续训练(以利用其中的先验知识)。

2.3 在初始预训练中使用 Rewarmup 会损伤性能

尽管 warmup 策略在 Finetune 和 Continue Pretraining 中都起到了更好的效果(相较于常量学习率),但是,这建立在「切换了训练数据集(数据分布)」的前提下。

作者做了一个实验,不切换数据集,而是继续在之前的「预训练数据集(The Pile)」上继续训练:

从图中结果可以发现:无论使用多大学习率的 warmup 策略,效果都不如使用常量学习率。

这进一步证明,在原数据集上使用 warmup 接着训练会造成性能损伤,学习率越大则损伤越大,且这种损伤是无法在后续的训练中被找回的。

PS:这里提示我们,当预训练中遇到了训练中断需要继续训练时,我们应该在重新开始训练时将学习率恢复到中断之前的状态(无论是数值还是衰减率)。

3. 实验限制

作者在论文的最后贴出了得出上述结论的一些局限性。

3.1 上下游数据分布类似

因为实验中选用的上游数据集 [Pile] 和下游数据集 [SlimPajama] 中存在一部分的数据重叠,

所以导致上下游数据的分布是比较相似的,但在我们真实的训练任务中,上下游数据的差异可能会比这大的多。

3.2 模型规模较小

论文中所使用的模型规模为 410M,这和今天人们 7B 起步的 LLM 规模相差甚远。

不过该团队打算在接下来的工作中继续在 3B 和 7B 的规模下进行尝试,期待他们最后的实验结论。


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
如何更好地虚度时光? | 社长日签ICCV 2023 | 将MAE预训练好的Encoder-Decoder整体迁移到目标检测中Preparing for the 2023 Tax Year: Ensuring a Strong Tax Saving?武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!How Residents Are Rebuilding Shanghai’s Urban CommunitiesICCV2023奖项出炉!斯坦福ControlNet和多伦多大学分别获得最佳论文!Segment Anything最佳提名天底下的傻瓜过得都咋样了?老天爷密集出招!优化购房入学模式、鼓励现房销售…多地继续出台楼市新政Tagger 的新更新可让你更好地组织和标记音乐 | Linux 中国又一省城放松限购,买首套不要购房证明!多地继续出新招Bilt Rent Day 活动【Points Quest 活动;转点到 EK 75% Bonus】𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~更好地利用 Xfce 的 Thunar 文件管理器的 7 个技巧 | Linux 中国雷尼尔山公园因雷击引发火灾,所有露营地继续实行禁火令NeurIPS 2023 | RevCol V2: 当解耦学习遇上自监督训练,视觉预训练的思路预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景最高补贴500万,无锡放大招!多地继续调整优化购房政策平娃、浅浅大隐隐于市!越南一家人在San Jose开的小店全是越南客人——Phở Cường 2【保险】产品继续上新,居然有保既往症(Pre-existing)的旅行保险?好山好水好歌获得四次理赔的新皮卡Troubled Singing Reality Show Accused of Mistreating Coco Lee​下一代Transformer:RetNet结构可视化及Vision RetNet展望Severe Flooding Continues to Rock Northeastern China「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统nǚ hóng?nǚ gōngNo Pre-entry COVID Test Required650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目Rediscovering Tradition in Pu’er CountryAs Viewers Fret, China Vows to Streamline Fees for OTT ContentAnti-Consumerism Advocate Encourages Rethinking Life’s PleasuresNeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。