OpenAI科学家最新大语言模型演讲火了,洞见LLM成功的关键
机器之心报道
选自 ragntune 的博客
编辑:Panda
从涌现和扩展律到指令微调和 RLHF,OpenAI 科学家带你进入 LLM 的世界。
我们越来越希望教会模型掌握更抽象的行为 指令微调的目标函数似乎是教授这些行为的「瓶颈」 最大似然目标是「预定义的」函数(即不可学习的参数) 我们能否参数化目标函数并学习它?
最大似然有过于强大的归纳偏见,当模型规模变大时,这个问题会更显著; 学习目标函数是一种不同的范式,有助于缓解这个问题,能提供很大的提升空间,ChatGPT 等一些成功利用 RLHF 的案例只是一个开始; 其原理很可靠,值得进一步发掘其功效。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章