Redian新闻
>
轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用

轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】缺数据不是问题,直接用GPT-4生成的指令就够了,标注员恐怕要失业了!


「指令」(Instruction)是ChatGPT模型取得突破性进展的关键因素,可以让语言模型的输出更符合「人类的偏好」。


但指令的标注工作需要耗费大量的人力,即便有了开源的语言模型,资金不足的学术机构、小公司也很难训练出自己ChatGPT.


最近微软的研究人员利用之前提出的Self-Instruct技术首次尝试使用GPT-4模型来自动生成语言模型所需的微调指令数据


论文链接:https://arxiv.org/pdf/2304.03277.pdf

代码链接:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM


在基于Meta开源的LLaMA模型上的实验结果表明,由 GPT-4生成的5.2万条英语和汉语instruction-following数据在新任务中的表现优于以前最先进的模型生成的指令数据,研究人员还从GPT-4中收集反馈和比较数据,以便进行全面的评估和奖励模式训练。


训练数据


数据收集


研究人员重用了斯坦福大学发布的Alpaca模型用到的5.2万条指令,其中每条指令都描述了模型应该执行的任务,并遵循与Alpaca相同的prompting策略,同时考虑有输入和无输入的情况,作为任务的可选上下文或输入;使用大型语言模型对指令输出答案。


在Alpaca 数据集中,输出是使用GPT-3.5(text-davinci-003)生成的,但在这篇论文中,研究人员选择使用GPT-4来生成数据,具体包括以下四个数据集:


1. 英文Instruction-Following Data对于在Alpaca中收集的5.2万条指令,为每一条指令都提供一个英文GPT-4答案。



未来的工作为遵循迭代的过程,使用GPT-4和self-instruct构建一个全新的数据集。


2. 中文Instruction-Following Data使用ChatGPT将5.2万条指令翻译成中文,并要求GPT-4用中文回答这些指令,并以此建立一个基于LLaMA的中文instruction-following模型,并研究指令调优的跨语言泛化能力。


3. 对比数据(Comparison Data)要求GPT-4对自己的回复提供从1到10的评分,并对GPT-4, GPT-3.5和OPT-IML这三个模型的回复进行评分,以训练奖励模型。



4. 非自然指令的答案GPT-4的答案是在6.8万条(指令,输入,输出)三元组的数据集上解码的,使用该子集来量化GPT-4和指令调优后的模型在规模上的差距。


数据统计


研究人员对比了GPT-4和GPT-3.5的英语输出回复集合:对于每个输出,都提取了根动词(root verb)和直接宾语名词(direct-object noun),在每个输出集上计算了独特的动词-名词对的频率。


频率高于10的动词-名词对


频率最高的25对动词-名词


输出序列长度的频率分布对比


可以看到,GPT-4倾向于生成比GPT-3.5更长的序列,Alpaca中GPT-3.5数据的长尾现象比GPT-4的输出分布更明显,可能是因为Alpaca数据集涉及到一个迭代的数据收集过程,在每次迭代中去除相似的指令实例,在目前的一次性数据生成中是没有的。


尽管这个过程很简单,但GPT-4生成的instruction-following数据表现出更强大的对齐性能。


指令调优语言模型


Self-Instruct 调优


研究人员基于LLaMA 7B checkpoint有监督微调后训练得到了两个模型:LLaMA-GPT4是在GPT-4生成的5.2万条英文instruction-following数据上训练的;LLaMA-GPT4-CN是在GPT-4的5.2万条中文instruction-following数据上训练的。


两个模型被用来研究GPT-4的数据质量以及在一种语言中进行指令调优的LLMs时的跨语言泛化特性。


奖励模型


从人类反馈中进行强化学习(Reinforcement Learning from Human Feedback,RLHF)旨在使LLM行为与人类的偏好相一致,以使语言模型的输出对人类更加有用。


RLHF的一个关键组成部分是奖励建模,其问题可以被表述为一个回归任务,以预测给定提示和回复的奖励评分,该方法通常需要大规模的比较数据,即对同一提示的两个模型反应进行比较。


现有的开源模型,如Alpaca、Vicuna和Dolly,由于标注对比数据的成本很高,所以没有用到RLHF,并且最近的研究表明,GPT-4能够识别和修复自己的错误,并准确判断回复的质量。



为了促进对RLHF的研究,研究人员使用GPT-4创建了对比数据;为了评估数据质量,研究人员训练一个基于OPT 1.3B的奖励模型,以对不同的回复进行评分:对一个提示和K个回复,GPT-4为每个回复提供一个1到10之间的评分。


实验结果


在 GPT-4数据上评估以前从未见过的任务的self-instruct调优模型的性能仍然是一项困难的任务。


由于主要目标是评估模型理解和遵守各种任务指示的能力,为了实现这一点,研究人员利用三种类型的评估,并通过研究结果证实,「利用 GPT-4生成数据」相比其他机器自动生成的数据来说是一种有效的大型语言模型指令调优方法。


人类评估


为了评估该指令调优后的大型语言模型对齐质量,研究人员遵循之前提出的对齐标准:如果一个助手是有帮助的、诚实的和无害的(HHH),那它就是与人类评估标准对齐的,这些标准也被广泛用于评估人工智能系统与人类价值观的一致性程度。


帮助性(helpfulness)是否能帮助人类实现他们的目标,一个能够准确回答问题的模型是有帮助的。


诚实性(honesty)是否提供真实信息,并在必要时表达其不确定性以避免误导人类用户,一个提供虚假信息的模型是不诚实的。


无害性(harmlessness)是否不会对人类造成伤害,一个产生仇恨言论或提倡暴力的模型不是无害的。


基于HHH对齐标准,研究人员使用众包平台Amazon Mechanical Turk对模型生成结果进行人工评估。



文中提出的两个模型分别在GPT-4和GPT-3生成的数据上进行了微调,可以看到LLaMA-GPT4以51.2%的占比在帮助性上要大大优于在GPT-3上微调的Alpaca(19.74%),而在诚实性和 无害性标准下,则基本处于平局状态,GPT-3要略胜一筹。



在和原版GPT-4对比时,可以发现二者在三个标准上也是相当一致的,即GPT-4指令调优后的LLaMA表现与原始的GPT-4类似。


GPT-4自动评估


受 Vicuna 的启发,研究人员也选择用GPT-4来评估不同聊天机器人模型对80个未见过的问题所生成回答的质量,从 LLaMA-GPT-4(7B)和 GPT-4模型中收集回复,并从以前的研究中获得其他模型的答案,然后要求GPT-4对两个模型之间的回复质量进行评分,评分范围从1到10,并将结果与其他强竞争模型(ChatGPT 和 GPT-4)进行比较。



评估结果显示,反馈数据和奖励模型对提高 LLaMA 的性能是有效的;用GPT-4对LLaMA进行指令调优,往往比用text-davinci-003调优(即Alpaca)和不调优(即LLaMA)的性能更高;7B LLaMA GPT4的性能超过了13B Alpaca和LLaMA,但和GPT-4等大型商业聊天机器人相比,仍有差距。



进一步研究中文聊天机器人的性能时,首先使用GPT-4将聊天机器人的问题也从英文翻译成中文,用GPT-4获得答案,可以得到两个有趣的观察结果:


1. 可以发现GPT-4评价的相对分数指标是相当一致的,无论是在不同的对手模型(即ChatGPT或GPT-4)和语言(即英语或中文)方面。


2. 仅就GPT-4的结果而言,翻译后的回复比中文生成的回复表现得更好,可能是因为GPT-4是在比中文更丰富的英文语料库中训练的,所以具有更强的英文instruction-following能力。


非自然指令评估(Unnatural Instruction Evaluation)



从平均ROUGE-L得分来看,Alpaca优于LLaMA-GPT 4和GPT-4,可以注意到,LLaMA-GPT4和GPT4在ground truth回复长度增加时逐渐表现得更好,最终在长度超过4时表现出更高的性能,意味着当场景更具创造性时,可以更好地遵循指令。


在不同的子集中,LLaMA-GPT4跟GPT-4的行为相差无几;当序列长度较短时,LLaMA-GPT4和GPT-4都能生成包含简单的基本事实答案的回复,但会增加额外的词语,使回复更像聊天,可能会导致ROUGE-L得分降低。


参考资料:
https://arxiv.org/pdf/2304.03277.pdf





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
[资源]开局王炸!HBO王牌剧《继承之战》1-4季中英双语资源全重访西班牙(12)-黄金之城的欢歌ChatGPT背后的指令学习是什么?PSU发布首篇「指令学习」全面综述【世界读书日精选】珍藏级莎士比亚十四行诗集,154首中英双语,复旦教授逐诗解读!5岁+中英双语: 风靡全球50年的品格教养童话绘本,亚马逊5星好评!清仓中!谷歌打响全面反击战!官宣AI重构搜索、新模型比肩GPT-4,朝着ChatGPT微软开炮讲绘本、教识字、中英双语启蒙,十项全能的早教机就是它微软开源DeepSpeed Chat,人人可快速训练百亿、千亿级ChatGPT大模型谷歌打响全面反击战!官宣 AI 重构搜索、新模型比肩 GPT-4,朝着 ChatGPT 微软开炮[资源] 必看高能漫威美剧《神盾局特工》1-7季中英双语资源全刷榜GitHub!中科院学术科研专用版 ChatGPT开源了!斩获24K star。。论文润色、语法检查,一键搞定!GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌微软开源“傻瓜式”类ChatGPT模型训练工具,提速省钱15倍美国科技伦理组织要求 FTC 禁止商用版 GPT-4;库克到访米哈游总部;腾讯研发类 ChatGPT 产品 | 极客早知道BBC纪录片《王朝》出书啦!高清大图,中英双语,就冲赠品也值得买![资源] 犯罪心理悬疑剧《心灵猎人》1-2季,中英双语新婚夜老婆发烧,我去买药忘拿手机,折回去开门:“娶个畜生呀”女人出轨,会有三种“味道”,特别第一种,是洗不掉的避免英特尔的 AVX-512 指令集问题,AMD 要走属于自己的“大小核”CPU 道路【聘】臧迪凯联合律所诚聘:中英双语助理(上海)腰斩清仓价!亚马逊5星好评、中英双语的品格培育绘本!ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源微软开源多模态聊天机器人 Visual ChatGPT[资源] 犯罪心理悬疑剧《心灵猎人》1-2季中英双语资源全首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升ChatGPT开源替代来了!参数量200亿,在4300万条指令上微调而成我的厉害国, 下了狠手?ChatGPT 开源平替来了,开箱即用!200 亿参数,采用 4300 万条指令集微调模型ChatGPT战火烧到手机端!微软推移动版Bing,安卓和iOS都能用[日签]​ 如果不能飞,就跑;如果不能跑,就走;如果不能走,就爬集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布炸掉北溪民用设施习不想做点啥南加华裔妈妈为孩子们创作中英双语书微软开源 Visual ChatGPT,7 天斩获 2.2 万 stars
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。