Redian新闻
>
UltraFeedback:大规模、多样化、细粒度的偏好数据集

UltraFeedback:大规模、多样化、细粒度的偏好数据集

公众号新闻

来自:OpenBMB开源社区

进NLP群—>加入NLP交流群

面壁智能(ModelBest)与清华 NLP 实验室持续探索大模型对齐(Alignment技术。继 UltraLM-13B-v1.0 登顶斯坦福 AlpacaEval 开源模型榜单后,近日团队最新发布与 UltraRM 联合的 UltraLM-13B-v2.0(best-of-16采样),在 AlpacaEval 榜单取得了 92.30% 的高分,成为 70B 以下模型最高分


UltraLM-13B-v2.0 是从 LLaMA2-13B 模型在 UltraChat 数据集上微调而来(介绍详见:OpenBMB 对齐技术 UltraLM 登顶斯坦福 Alpaca-Eval 开源模型榜单),此前在 AlpacaEval 榜单上得分为 83.60%。

为了进一步提高生成质量,团队积极探索基于人类反馈的强化学习(RLHF)技术,构建了大规模反馈数据集UltraFeedback并基于此训练了高质量奖励模型UltraRM,UltraRM进一步帮助UltraLM-13B-v2.0在AlpacaEval榜单取得了70B以下模型中的最佳性能。



   

 UltraFeedback 

大规模、多样化、细粒度的偏好数据集


 ➤  Github 地址 

🔗 https://github.com/OpenBMB/UltraFeedback

 ➤  论文链接 
🔗 https://arxiv.org/abs/2310.01377
 ➤  HuggingFace 链接 

🔗 https://huggingface.co/datasets/openbmb/UltraFeedback

基于人类反馈的强化学习(RLHF)被 OpenAI、Anthropic 和 Google DeepMind 等业界领先公司广泛研究并应用。然而,由于缺乏 高质量、公开可用 的偏好数据集,开源社区在 RLHF 的研究和实践上仍然处于落后状态。

为了解决这一问题,我们构建了 UltraFeedback,一个 大规模、多样化、细粒度 的偏好数据集,包括 25 万条 对话数据以及相应的偏好标注数据,每条偏好标注均包含四个方面的细粒度得分与详细的文字说明。这一数据规模在非社区标注的偏好数据集中排在首位。

为了提升指令和模型的多样性,UltraFeedback 从多个社区开源的指令数据集中收集了约 6 万条指令。基于这些指令,UltraFeedback 从 17 种不同架构、参数量、训练数据的模型中随机选取4种不同模型,为每条指令生成 4 种有区分度的回复。



   

 UltraRM 

基于 UltraFeedback 的奖励模型

 ➤  HuggingFace 地址 

🔗 https://huggingface.co/openbmb/UltraRM-13b

奖励模型(Reward Model)旨在区分同一个问题的不同回答好坏,是后续 RLHF的基础,也是衡量反馈数据集质量的重要维度。我们训练并发布了基于 UltraFeedback 的奖励模型(Reward Model), UltraRM,以进一步促进对齐研究。UltraRM 由 LLaMA2-13B 初始化,在 UltraFeedback 和三个开源数据集(Anthropic HH-RLHF, Stanford SHP和OpenAI Summarization)组成的混合数据集上进行微调。在四个公共偏好测试集上,UltraRM 显著超过其他开源奖励模型,达到了 SOTA 的性能。



   

 UltraCM 

基于UltraFeedback 的批评模型

 ➤  HuggingFace 地址 

🔗 https://huggingface.co/openbmb/UltraCM-13b

我们还训练了一个基于 UltraFeedback 的批评模型(Critique Model), UltraCM,用于自动生成文本形式的反馈。与 UltraRM 类似,UltraCM 由 LLaMA2-13B 初始化。在 9 个基准数据集上,UltraCM 优于所有开源 baseline,性能接近 ChatGPT。


   

 UltraFeedback 的应用和热烈反馈 

UltraFeedback 发布不足十天,已经得到开源社区的积极认可。HuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型,展现出强大性能。Zephyr-7B 在 MT-Bench 上得到 7.09 分,超越 LLaMA2-70B-Chat,同时在 OpenLLM Leaderboard 的 4 个数据集上取得了 66.1 的平均分,在 Twitter 上受到广泛关注。

我们欢迎更多研究者使用 UltraChat 和 UltraFeedback 训练自己的模型,推动开源社区对齐技术研究!



备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
旗舰降噪耳机新标杆|Bose QC消噪耳塞Ultra/头戴式耳机Ultra全面体验英特尔 Ultra 7 155H 核显 Geekbench 跑分超 AMD R7 7840HSRedmi K70系列发布;魅族21发布;努比亚Z60 Ultra官宣超高清视频呈现两个“多样化”趋势超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能PromptScript:轻量级 DSL 脚本,加速多样化的 LLM 测试与验证四川省政府副秘书长刘全胜:打造一场国际化、专业化、高端化的新型显示行业盛会晨跑---九年爱芯元智,移动智能计算平台支持客户多样化需求|年会展商麻州新法:扩大规模收集种族和族裔数据来协调企业扩张!是全国同类行动中最全面的州级行动,有助提高对人口多样化需求和挑战的理解!「专题速递」数据驱动赋能、赛事直播优化、RTC技术、低延时传输引擎、多媒体处理框架、GPU加速多伦多Trick-or-Treat攻略:大数据推给不知道去哪儿要糖的孩子们恭喜DBC职梦罗切斯特学员收获PwC (HK) Consulting全职Offer!猫屎咖啡早抢疯了,青岛啤酒凭什么不能口味多样化?"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集无需偏好数据也能RLHF?腾讯AI Lab提出对抗式偏好对齐方法ICCV 2023 | 通过可靠、多样和类平衡的伪标签重新审视跨域三维目标检测山风一样自由跨越周期:进化、进化、进化!久久为功 为资本市场培养成熟投资者 广发证券探索投资者教育多样化新模式网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展长篇小说《如絮》第一百八十二章 朝鲜-1951-1955年 1 刺青【LEAP eSalon】Nailing a Career Pivot: Engineer to ConsultantDeepSpeed框架:大纲和资料梳理ICCV 2023|南洋理工大学开源大规模语言视频分割数据集MeViS世间无赖繁殖快部分旧版Chase Freedom用户被强制“暖心升级”成Chase Freedom Unlimited大量搭载英特尔酷睿 Ultra 7 155H、155U“Meteor Lake”处理器的笔记本电脑现身 GeekbenchICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测日本日记11: 京都酒店和日本旅馆攻略随笔多角色、多空间、多场景,嫌疑人和证人有300多个,但侦探只有一个 ——聪明且严谨的你!【课程报名】Bernard Hanotiau教授“复杂仲裁:多方、多合同、多问题”刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!Troubled Singing Reality Show Accused of Mistreating Coco Lee
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。