ChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!
导读
从业人员需要确保机器学习模型优化人们所关心的功能,而非与用户意图不匹配的代理函数(proxy function) InstructGPT 旨在使 GPT-3 实现「助人、真实、无害」的目标,重点匹配人们的实际偏好 和最初GPT-3的鹦鹉学舌相比,InstructGPT模型能够感知到用户给出指令的意图,并尽力而为,更像是为我们工作的“助手” 尽管模型本身绝大多数是在英语上训练的,InstructGPT 遵循指令的能力泛化到了其它语言上 “基于人类反馈的强化学习”(RLHF)是支撑 InstructGPT 的核心技术之一 ,研究人类反馈数据比加大模型规模更重要
前提:确保ML模型优化的是用户所关心的功能
方法:模仿人类的偏好,使用强化学习来改善对齐方式
数据:研究人类反馈数据,比加大模型规模更重要
图 5:对比实验结果。Long的方法优于其它基线。对每一条基线而言,13亿参数的模型实际上都优于1750参数的模型,这意味着在正确类型的数据上进行训练,比单纯地将模型规模扩大的价值要高得多。
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章