ChatGPT的狂欢背后:短板犹在,启发甚多,2023有这些事可以做……
机器之心报道
ChatGPT 的强大能力是与生俱来的吗?它有哪些短板?未来它会取代搜索引擎吗?它的出现给我们的 AI 研究带来了哪些启发?针对这些问题,几位 AI 研究者展开了深入对谈。
ChatGPT 的这种强大能力是哪里来的? ChatGPT 还有哪些短板? 未来它会取代搜索引擎吗? 它的出现给我们的 AI 研究带来了哪些启发?
冷启动阶段的监督策略模型:从测试用户提交的 prompt 中随机抽取一批,靠专业的标注人员,给出指定 prompt 的高质量答案,然后用这些人工标注好的 < prompt,answer > 数据来 Fine-tune GPT 3.5 模型,从而让 GPT 3.5 初步具备理解指令中蕴含的意图的能力; 训练回报模型(Reward Model,RM):随机抽样一批用户提交的 prompt,然后使用第一阶段 Fine-tune 好的冷启动模型为每个 prompt 生成 K 个不同的回答,再让标注人员对 K 个结果进行排序,以此作为训练数据,通过 pair-wise learning to rank 模式来训练回报模型; 采用强化学习来增强预训练模型的能力:利用上一阶段学好的 RM 模型,靠 RM 打分结果来更新预训练模型参数。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章