RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好
编辑:蛋酱、马梓文
Human Feedback 可以有,但这项研究却表明了「RL」的可替代性。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章编辑:蛋酱、马梓文
Human Feedback 可以有,但这项研究却表明了「RL」的可替代性。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者