大语言模型对齐的四种方法!
RLHF
https://arxiv.org/abs/2203.02155
• 预训练一个语言模型LM • 根据问答数据训练一个奖励模型RM • 使用强化学习RL的方式微调LM
1.预训练语言模型
2. 训练奖励模型
3.用强化学习微调
RRHF
https://arxiv.org/abs/2210.11416
• SFT:SFT相当于RRHF的可选择响应的数量为1,相当于直接进行微调 • Reward Model:RRHF本质上就是在训练一个RM,只不过通过训练LM的方式来训练,之前的RM都是通过CLS或者EOS来获取排序信息。 • PPO:在训练的时候,PPO的样本随着模型的训练进行采样,而RRHF的样本都是在训练之前采集的。RRHF的训练目标是学习排序,而PPO是直接学习分数。
FLAN
https://arxiv.org/abs/2210.11416
• 多任务微调能够比未微调的效果要好,并且随着任务数量的增加,模型的性能也越好。 • 其中282的多任务微调能够带来显著的提升,再增加任务数量,模型的性能趋近于饱和。一种解释是,多任务微调的收益大部分来自于模型学习更好的表达它从预训练中学习到的知识。这一点也可以从训练的token数量看出来(预训练:指令微调=780B:1.4B) • 随着模型规模的增加,模型的性能也越好。
• 左边的图,加入CoT的数据能够有效的提升模型在CoT任务上的表现,而只在non-CoT的数据上进行训练会导致模型丧失CoT的能力。 • 右边的图,只加入CoT的数据不会影响在non-CoT任务上的表现。
DPO
https://arxiv.org/abs/2305.18290
1. 在ref model上采样y1和y2,构建偏好数据集 D={x{i},yw{i},yl{i}}i=1N 2. 在给定的数据集 D,πref,β 的基础上优化语言模型 πθ 。在实际训练的时候,通常使用已经存在的偏好数据集,而不是直接生成样本并收集人类偏好。如果 πsft 可获取,就将其看作 πref ,否则的话,则需要在最大化最优问答对(x,yw)的似然来初始化 πref 。
• DPO能够多大程度上优化RLHF目标?
• DPO能够扩展到真实的偏好数据集上吗?
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章