Redian新闻
>
无需人工标注,自生成指令框架打破ChatGPT等LLM的成本瓶颈

无需人工标注,自生成指令框架打破ChatGPT等LLM的成本瓶颈

公众号新闻
机器之心报道
编辑:小舟

当前,大型语言模型的性能已经达到了很高的水平,除了进一步挖掘其潜力,我们还应该关注到模型背后的人工标注成本。

ChatGPT 是今年年底 AI 圈的新晋顶流,人们惊叹于它强大的问答语言能力和掌握的编程知识。但越是强大的模型,其背后的技术要求也就越高。


ChatGPT 是在 GPT 3.5 系列模型的基础上,引入「人工标注数据 + 强化学习」(RLHF)来不断微调预训练语言模型,旨在让大型语言模型(LLM)学会理解人类的命令,并学会根据给定的 prompt 给出最优的答案。


这种技术思路是当前语言模型的发展趋势。这类模型虽然很有发展前景的,但模型训练和微调所需的成本非常高。


根据 OpenAI 目前公开的信息,ChatGPT 的训练过程共分为三个阶段:



首先,第一个阶段是类似于 GPT 3.5 的有监督策略模型,这个基础模型很难理解人类不同类型指令中蕴含的意图,也很难判断生成内容的质量高低。研究人员从 prompt 数据集中随机抽取了一些样例,然后让专业的标注人员根据指定 prompt 给出高质量的答案。这个人工过程获得的 prompt 及其相应高质量答案被用于微调初始的有监督策略模型,使其具备基本的 prompt 理解能力,并初步提高生成答案的质量。


第二阶段研究团队抽取模型根据给定 prompt 生成的多个输出,然后让人类研究员对这些输出进行排序,再用排序数据训练奖励模型(reward model,RM)。ChatGPT 采取 pair-wise loss 来训练 RM。


第三阶段研究团队采用强化学习来增强预训练模型的能力,利用上一阶段学好的 RM 模型来更新预训练模型参数。


我们可以发现,在 ChatGPT 训练的三个阶段中,只有第三阶段不需要使用人工标注数据,而第一第二阶段都需要大量的人工标注。因此 ChatGPT 这类模型虽然性能很好,但是为了提高其遵循指令的能力,人工成本非常高。随着模型规模越来越大,能力范围越来越广,这个问题就会越发严重,最终成为阻碍模型发展的瓶颈。


一些研究尝试提出解决这一瓶颈的方法,比如华盛顿大学等机构近期联合发表了一篇论文《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》,提出的新框架 SELF-INSTRUCT 通过引导模型自己的生成过程,提高了预训练语言模型的指令遵循能力。



论文地址:https://arxiv.org/pdf/2212.10560v1.pdf


SELF-INSTRUCT 是一种半自动化过程,使用来自模型本身的指令信号对预训练的 LM 进行指令调整。如下图所示,整个过程是一个迭代引导算法。



SELF-INSTRUCT 从有限的种子集开始,指导整个生成过程的手动编写指令。在第一阶段,模型被 prompt 成为新任务生成指令,该步骤是利用现有的指令集来创建更广泛的指令,以此来定义新任务。SELF-INSTRUCT 还为新生成的指令集创建输入输出实例,以用于监督指令调整。最后,SELF-INSTRUCT 还对低质量和重复指令进行修剪。整个过程是反复迭代执行的,最终模型能为大量任务生成指令。


为了验证新方法的有效性,该研究在 GPT-3 上应用 SELF-INSTRUCT 框架,最终产生大约 52k 条指令,82k 实例输入和目标输出。研究者观察到 GPT-3 在 SUPER-NATURALINSTRUCTIONS 数据集中的新任务上比原始模型获得了 33.1% 的绝对改进,与使用私人用户数据和人工标注训练的 InstructGPT_001 性能相当。



为了进一步评估,该研究为新任务整理了一组专家编写的指令,并通过人工评估表明,使用 SELF-INSTRUCT 的 GPT-3 性能会大大优于现有使用公共指令数据集的模型,并且仅比 InstructGPT_001 落后 5%。 



SELF-INSTRUCT 提供了一种几乎不需要人工标注的方法,实现了预训练语言模型与指令对齐。已有多个工作在类似的方向上做出尝试,都收获了不错的结果,可以看出这类方法对于解决大型语言模型人工标注成本高的问题非常有效。这将让 ChatGPT 等 LLM 变得更强,走得更远。


参考链接:

https://zhuanlan.zhihu.com/p/589533490

https://openai.com/blog/chatgpt/


2022 Amazon DeepRacer线上赛正在进行中!


Amazon DeepRacer 是 1/18 自动驾驶赛车,专门用于在实际赛道上进行竞赛来测试强化学习模型;使用摄像头查看赛道,并使用强化模型来控制油门和方向盘。

想感受 AI+赛车带来的冲击力,想遇见赛车场上不一样的精彩?这场跨年线上赛,等你加入!

赛事时间:即日起至2022年12月31日12:00

心动不如行动,有哪些大奖等你拿?

  • 第1名:HYUNDAI现代投影仪

  • 第2名:雷蛇机械键盘

  • 第3名:SKG颈椎按摩仪

  • 4-10名:精美音箱

  • 前50名:亚马逊定制帽子
点击阅读原文,注册亚马逊云科技账号即可线上参赛。
提交模型地址:https://us-east-1.console.aws.amazon.com/deepracer/home#raceToken/Vnn3LtF3T9GaJxvbe93EQQ

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
全球都为ChatGPT疯狂,它到底是风口还是虚火?深度解读风暴眼中的ChatGPT | 直播预约Chat GPT等人工智能技术 对美国大学申请及本科专业选择的影响下载量暴增10倍!微软必应集成ChatGPT后需求大爆发;4省份上调最低工资标准;淘宝已屏蔽ChatGPT关键词丨邦早报ChatGPT 或导致 20 种工作失业?恐怕远远不止,比尔盖茨 :ChatGPT 将改变世界一组短诗百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此紧急提醒!ChatGPT成神器!但这些“ChatGPT”是假的,小心被骗!跟ChatGPT,聊聊ChatGPT用 AI 对抗 AI!斯坦福研究人员推出 DetectGPT,专门检测 ChatGPT 等模型生成的文本Is the US going to crush China?为什么ChatGPT这么强?—— 一文读懂ChatGPT原理!ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!ChatGPT惹怒主流媒体!华尔街日报、CNN授权费都没付!马斯克:ChatGPT好得吓人;用户吐槽:它有时会一本正经的胡说八道ChatGPT通过谷歌程序员面试,薪资达18.3万美元!ChatGPT通过谷歌程序员面试,薪资达18.3万美元!孟晚舟将首次出任华为轮值董事长/ 百度All in类ChatGPT项目/ 知乎因ChatGPT大涨50%…今日更多新鲜事在此重磅 | 我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)踏秋冒充人类作者,ChatGPT等滥用引担忧,一文综述AI生成文本检测方法Chat GPT等人工智能技术 对未来职业及大学专业选择的影响ChatGPT到底有多聪明?我测试了ChatGPT的数学能力ChatGPT因访问量激增崩了;抖音否认3月1日上线外卖服务;百度将于3月推出ChatGPT产品丨邦早报娄岩一周诗词三首好物分享:Chef Moussa-体验ChatGPT 进军 B 端?消息称微软将允许企业创建定制版 ChatGPT剽窃、作弊,ChatGPT竟偷偷生成了12篇署名论文!Marcus炮轰Ta变成CheatGPT金融民工会因为ChatGPT下岗吗?刚刚,我问了ChatGPT 24个金融圈灵魂问题ChatGPT能有意识吗:关于ChatGPT的误解与夸大朋友圈全是ChatGPT! ChatGPT概念股大火比尔盖兹看好ChatGPT"将改变全世界",微软将整合到Word、PPT等Office程式中我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患反击!Google 版 ChatGPT 首次亮相,有一个功能「碾压」ChatGPT重磅!微软发布 ChatGPT 版搜索引擎,用上了比 ChatGPT 更强大的技术华尔街交易员为何不担心ChatGPT抢饭碗?ChatGPT:我预测不了市场
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。