Redian新闻
>
UltraFeedback:大规模、多样化、细粒度的偏好数据集

UltraFeedback:大规模、多样化、细粒度的偏好数据集

公众号新闻

来自:OpenBMB开源社区

进NLP群—>加入NLP交流群

面壁智能(ModelBest)与清华 NLP 实验室持续探索大模型对齐(Alignment技术。继 UltraLM-13B-v1.0 登顶斯坦福 AlpacaEval 开源模型榜单后,近日团队最新发布与 UltraRM 联合的 UltraLM-13B-v2.0(best-of-16采样),在 AlpacaEval 榜单取得了 92.30% 的高分,成为 70B 以下模型最高分


UltraLM-13B-v2.0 是从 LLaMA2-13B 模型在 UltraChat 数据集上微调而来(介绍详见:OpenBMB 对齐技术 UltraLM 登顶斯坦福 Alpaca-Eval 开源模型榜单),此前在 AlpacaEval 榜单上得分为 83.60%。

为了进一步提高生成质量,团队积极探索基于人类反馈的强化学习(RLHF)技术,构建了大规模反馈数据集UltraFeedback并基于此训练了高质量奖励模型UltraRM,UltraRM进一步帮助UltraLM-13B-v2.0在AlpacaEval榜单取得了70B以下模型中的最佳性能。



   

 UltraFeedback 

大规模、多样化、细粒度的偏好数据集


 ➤  Github 地址 

🔗 https://github.com/OpenBMB/UltraFeedback

 ➤  论文链接 
🔗 https://arxiv.org/abs/2310.01377
 ➤  HuggingFace 链接 

🔗 https://huggingface.co/datasets/openbmb/UltraFeedback

基于人类反馈的强化学习(RLHF)被 OpenAI、Anthropic 和 Google DeepMind 等业界领先公司广泛研究并应用。然而,由于缺乏 高质量、公开可用 的偏好数据集,开源社区在 RLHF 的研究和实践上仍然处于落后状态。

为了解决这一问题,我们构建了 UltraFeedback,一个 大规模、多样化、细粒度 的偏好数据集,包括 25 万条 对话数据以及相应的偏好标注数据,每条偏好标注均包含四个方面的细粒度得分与详细的文字说明。这一数据规模在非社区标注的偏好数据集中排在首位。

为了提升指令和模型的多样性,UltraFeedback 从多个社区开源的指令数据集中收集了约 6 万条指令。基于这些指令,UltraFeedback 从 17 种不同架构、参数量、训练数据的模型中随机选取4种不同模型,为每条指令生成 4 种有区分度的回复。



   

 UltraRM 

基于 UltraFeedback 的奖励模型

 ➤  HuggingFace 地址 

🔗 https://huggingface.co/openbmb/UltraRM-13b

奖励模型(Reward Model)旨在区分同一个问题的不同回答好坏,是后续 RLHF的基础,也是衡量反馈数据集质量的重要维度。我们训练并发布了基于 UltraFeedback 的奖励模型(Reward Model), UltraRM,以进一步促进对齐研究。UltraRM 由 LLaMA2-13B 初始化,在 UltraFeedback 和三个开源数据集(Anthropic HH-RLHF, Stanford SHP和OpenAI Summarization)组成的混合数据集上进行微调。在四个公共偏好测试集上,UltraRM 显著超过其他开源奖励模型,达到了 SOTA 的性能。



   

 UltraCM 

基于UltraFeedback 的批评模型

 ➤  HuggingFace 地址 

🔗 https://huggingface.co/openbmb/UltraCM-13b

我们还训练了一个基于 UltraFeedback 的批评模型(Critique Model), UltraCM,用于自动生成文本形式的反馈。与 UltraRM 类似,UltraCM 由 LLaMA2-13B 初始化。在 9 个基准数据集上,UltraCM 优于所有开源 baseline,性能接近 ChatGPT。


   

 UltraFeedback 的应用和热烈反馈 

UltraFeedback 发布不足十天,已经得到开源社区的积极认可。HuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型,展现出强大性能。Zephyr-7B 在 MT-Bench 上得到 7.09 分,超越 LLaMA2-70B-Chat,同时在 OpenLLM Leaderboard 的 4 个数据集上取得了 66.1 的平均分,在 Twitter 上受到广泛关注。

我们欢迎更多研究者使用 UltraChat 和 UltraFeedback 训练自己的模型,推动开源社区对齐技术研究!



备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
旗舰降噪耳机新标杆|Bose QC消噪耳塞Ultra/头戴式耳机Ultra全面体验英特尔 Ultra 7 155H 核显 Geekbench 跑分超 AMD R7 7840HSPromptScript:轻量级 DSL 脚本,加速多样化的 LLM 测试与验证超高清视频呈现两个“多样化”趋势【LEAP eSalon】Nailing a Career Pivot: Engineer to Consultant"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"大量搭载英特尔酷睿 Ultra 7 155H、155U“Meteor Lake”处理器的笔记本电脑现身 Geekbench久久为功 为资本市场培养成熟投资者 广发证券探索投资者教育多样化新模式【课程报名】Bernard Hanotiau教授“复杂仲裁:多方、多合同、多问题”DeepSpeed框架:大纲和资料梳理ICCV 2023|南洋理工大学开源大规模语言视频分割数据集MeViS长篇小说《如絮》第一百八十二章 朝鲜-1951-1955年 1 刺青麻州新法:扩大规模收集种族和族裔数据来协调企业扩张!是全国同类行动中最全面的州级行动,有助提高对人口多样化需求和挑战的理解!Redmi K70系列发布;魅族21发布;努比亚Z60 Ultra官宣日本日记11: 京都酒店和日本旅馆攻略随笔「专题速递」数据驱动赋能、赛事直播优化、RTC技术、低延时传输引擎、多媒体处理框架、GPU加速无需偏好数据也能RLHF?腾讯AI Lab提出对抗式偏好对齐方法LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集山风一样自由跨越周期:进化、进化、进化!ICCV 2023 | 通过可靠、多样和类平衡的伪标签重新审视跨域三维目标检测多伦多Trick-or-Treat攻略:大数据推给不知道去哪儿要糖的孩子们ICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测恭喜DBC职梦罗切斯特学员收获PwC (HK) Consulting全职Offer!刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能晨跑---九年四川省政府副秘书长刘全胜:打造一场国际化、专业化、高端化的新型显示行业盛会爱芯元智,移动智能计算平台支持客户多样化需求|年会展商部分旧版Chase Freedom用户被强制“暖心升级”成Chase Freedom Unlimited猫屎咖啡早抢疯了,青岛啤酒凭什么不能口味多样化?Troubled Singing Reality Show Accused of Mistreating Coco Lee网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展多角色、多空间、多场景,嫌疑人和证人有300多个,但侦探只有一个 ——聪明且严谨的你!世间无赖繁殖快
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。