像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍
除了分数,打出分数背后的理由对于大模型对齐更具价值。
论文标题:Reasons to Reject? Aligning Language Models with Judgments 论文链接:https://arxiv.org/abs/2312.14591 Github 链接:https://github.com/wwxu21/CUT
优点:训练稳定;实现简单。 缺点:收集高质量、多样化的示例数据成本高;无法从错误回复中学习;示例数据往往和模型无关。
优点:能同时利用正确回复和错误回复;反馈信号与模型相关。 缺点:反馈信号稀疏;训练过程往往比较复杂。
步骤 1:收集指令,并获得目标大模型的回复。 步骤 2:针对上述指令 - 回复对,标注语言反馈。 步骤 3:采用 CUT,基于收集到的三元组数据微调目标大模型。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章