Redian新闻
>
「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%

「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%

公众号新闻
机器之心报道
编辑:马梓文

开源 VS 闭源,哪边的大语言模型更能打?


最近,大型语言模型获得了前所未有的关注度。在更迭迅速的情况下,开源模型与闭源模型的发展并驾齐驱,同时呈现百花齐放的态势。
但仍然令大家好奇的是,开源大模型和闭源大模型,哪一边实力更强?又该如何对比?
近日,在推特上,威斯康星大学计算机科学博士生 Wang Yizhong 同样对众多指令调优数据集及开源模型的发展提出了这个疑问。

此前,一些公开的指令调优模型在宣传时称,自身可与功能强大的闭源专有模型 (如 ChatGPT) 相媲美,但是大部分能支持这个说法的实验只是覆盖了全部任务的冰山一角而已,并且这些实验也主要依赖基于模型的评估指标。事实上,评估设置除了测试模型或人工标注的生成质量外,还应该包括测试模型的核心推理和事实回忆技能的任务,这些任务可能更开放和主观。
在最近的一项研究中,艾伦人工智能研究所联合华盛顿大学对指令调优资源进行了全面的评估,他们在十几个公共语料库上进行了大量的指令调优实验,从 6.7B 到 65B 的模型规模都有涉及。研究还评估了特定的模型能力 (即事实知识、推理、多语言性、编码) 和开放式的指令遵循能力,并展示了基于自动、基于模型和基于人工的评估指标的结果。

论文地址:https://arxiv.org/pdf/2306.04751.pdf
评估表明,在不同数据集上进行指令调优似乎可以提高特定的技能,没有一个数据集能在所有评估中均提供最佳性能。他们还发现,底层基础模型是至关重要的,更好的基础模型 (训练于更多 token 或是更大模型)整体表现更好。意料之外的是,研究还发现在基于模型的评估中首选的模型与在基于基准的自动评估中表现最好的模型并不匹配,这可能是由于 GPT-4 对长的、多样化生成的强烈偏见。
评估还表明,在任何给定的评估中,最佳模型的平均性能达到 ChatGPT 的 83%、GPT-4 的 68%,这表明需要进一步构建更好的基础模型和指令调优数据以缩小差距。
根据这些发现,研究团队提出了「TÜLU」,一套在数据源组合上进行微调的 7B 到 65B 的 LLAMA 模型。需要声明的是,在撰写本文时,TÜLU 65B 是公开发布的最大的全指令调优 LLAMA 变体。它在 7 个流行的可用数据集上进行训练,并产生最佳的平均性能,同时在每个单独任务上排在最佳性能模型的 15% 以内。
研究者开源了用于训练和评估这些大型语言模型的代码,并发布了在不同指令数据集及其混合物上训练的检查点,包括 TÜLU。
指令数据集
研究团队试图收集不同风格数据集的代表性样本 (列在表 1 中),包括:

(1) 由研究人员从现有的 NLP 数据集 (SuperNI , Flan V2) 创建;

(2) 由人类从头编写,用于指令调优 (Dolly , Open Assistant 1 );

(3) 由专有模型生成 (Self-Instruct , Unnatural Instructions、Alpaca、Baize、GPT4-Alpaca );

(4) 由用户共享的 prompt 和模型生成的补全组成;

(5) 为特定技能而建 (CoT 用于思维链,alpaca 用于代码生成)。


预训练模型
研究主要使用了 LLAMA 套件,这是一系列预训练模型,大小从 6.7B 到 65B 参数不等。这些模型代表了社区可用的最大、最高质量的预训练模型 (尽管在限制性许可下)。研究还考虑了与 LLAMA 6.7B 模型大小相当的 OPT 和 Pythia 模型,以检查不同基础模型的效果。
为简单起见,研究将所有大小四舍五入为整数。团队还注意到一些对类似或质量更好的模型进行预训练的工作,他们相信本文的发现应该适用于这些模型以及未来更强大的开放基础模型。

 使用各种数据集训练模型
统一格式
研究将所有数据集格式化为遵循聊天机器人风格的模式,以统一指令数据集的各种风格和格式,如图 1 所示。这让研究团队能够将用户和语言模型 (又称「assistant」) 之间的任意轮交互拟合到一个输入序列中,并将它们与因果语言模型一起编码。他们在用户话语和目标助手响应之前分别添加了特殊 token<|user|> 和 <|assistant|>,并在每个 assistant 输出的末尾添加了一个文本结束 token,在推理时,该 token 将停止模型每轮的响应。

TÜLU:整合资源,更好的指令调优模型
鉴于现有的研究表明,增加指令的多样性能够有效提高指令调优的性能,因此研究者将两个数据集结合起来:
人类混合数据,由最佳的人工编写数据集组成。包括 FLAN V2、CoT、Dolly 和 Open Assistant 1 (排除了了 SuperNI,因为 FLAN V2 已经包含了 SuperNI 中的大多数任务);
人类 + GPT 混合数据 ,包括人类混合数据和由 OpenAI GPT 模型生成的另外三个数据集,包括 GPT4-Alpaca、Code-Alpaca 和 ShareGPT。
研究团队将这些混合数据集连接起来,并将探索更复杂的采样混合物的工作留给未来。他们把在人类 + GPT 混合数据上训练的 LLAMA 模型命名为 TÜLU—— 不同物种之间杂交产生的杂交骆驼。
实验结果
指令调优数据集和基础模型分析
为了了解表 1 中列出的指令数据集对模型能力的贡献,研究者使用评估套件评估了在这些数据集上训练的 LLaMa 13B 模型。表 3 展示了基准评估集上的结果,其中 App D 的结果更为广泛。

实验结论如下:
  • 一个跨所有任务的最佳指令调优数据集是不存在的;

  • 合并数据集可以在基准任务上获得最佳的整体性能;

  • 基础模型的质量对于下游性能非常重要。(见表 4)


挑战开放模型的极限
当确定「使用广泛的数据混合是最好的」以及「使用 LLAMA 作为基础模型比其他开放替代方案更可取」后,研究比较所有 LLAMA 尺寸的人类 + GPT 数据混合 (TÜLU 模型) 上训练的模型的性能(如表 5 所示)。

实验结论得出:
  • 指令调优给所有尺寸的 LLAMA 模型都带来了很大的好处;

  • 较小的模型从指令调优中获益最大;

  • TÜLU 仍然落后于最先进的专有模型。


基于模型的开放式生成评估结果
表 6 中报告了模型 AlpacaFarm 胜率。

由此可以得出以下结果:
  • 基于传统 NLP 数据集的混合模型表现不佳;

  • 鼓励长时间、多样化代的数据集表现最好 (见图 2);

  • ShareGPT 的性能最好。



总体而言,有这些结果可以看出,虽然模型偏好评估很重要,但它并没有提供对这些模型的整体评估。因此,在更大、更全面的评估设置里,模型偏好评估应该只作为其中的一部分。
开放式生成的人工评价结果
图 4 中展示了人工评估结果。人工评估结果与 AlpacaFarm 和基于基准的评估具有强烈相关性:所有评估表明,65B TÜLU 优于 7B TÜLU。这表明使用更大的基础模型是重要的,并且在 65B TÜLU 和 ChatGPT 之间仍有不小的性能差距。
除此之外,研究还发现利用蒸馏数据集可以让性能有很大的提升,这表明相比之下人类编写的数据集是匮乏的。这些观察结果也与图 3 中的可接受性分数相一致。7B TÜLU 在模型偏好评估中优于 human-mix 65B TÜLU,但如果比较图 3 中的可接受性分数,则情况似乎相反。这进一步证明,模型两两评估可能并不始终揭示模型缺陷。在这种情况下,65B 人类混合模型比 7B 模型更有可能产生可接受的 (如果不是高质量的) 响应。
更多详细内容,请参见原文。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
7月1日起,数百万澳洲人将获得加薪!加薪幅度可能达到7%,澳联储或进一步加息研究表明:每天一杯含糖饮料,显著增加女性患肝癌和慢性肝病风险大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型自动驾驶到哪一步了?单GPU实现99%ChatGPT性能,「原驼」火了:手机也能微调大模型5061 血壮山河之武汉会战 鏖战幕府山 30GPT-4里套娃LLaMA 2!OpenAI创始成员周末爆改「羊驼宝宝」,GitHub一日千星竟然走到这一步了?睡得少,痴呆跑不了:新研究表明不睡觉等于在大脑中养毒|本周论文推荐AIGC在媒体领域运用走到哪一棒?​走到哪里,读到哪里:五套最宜“捧读”的袖珍小书研究表明部分中药材可能提高婴儿畸形率,蒲地蓝、鸡血藤疑为高风险成分重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器B站的AIGC梦,走到哪一步了?22023回国 去美食家蔡澜的餐厅喝早茶(图)墨尔本挖金子的好机会!澳洲最新研究表明:地震会震出黄金!电商MCN的上市之路,走到哪一步了​「羊了个羊」们熄火,中重度游戏王者归来管住口从现在开始!cell + cell repors研究表明:高脂肪饮食会影响肠道微生物以及代谢,加剧患癌风险!研究表明煤气炉的污染可能比二手烟更严重GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群《扫花游 - 听风》研究表明:这个时间段生的孩子会更聪明!不是迷信,还挺有道理……研究表明,双语可能有助于预防痴呆症《一首桃花》&《云水难记》研究表明,美国最富裕的4个县都在湾区最新研究表明新冠新症也会导致男性精液质量长期下降!UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一三阳”来了?最新研究表明:多次感染或持续感染将造成认知障碍,并且在近两年内依旧存在!训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式震惊!使用RNN就能达到超越GPT的对话效果!甚至超越LLaMA? Github已近万star陈天奇TVM团队出品:A卡跑大模型,性能达到4090的80%,价格仅一半《艰难岁月》新书推荐讲演稿对话圆代码 CEO 张朝明:做不跟 ChatGPT 对抗的企业大模型,用更少的数据达到更好的效果
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。