Redian新闻
>
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

公众号新闻
机器之心专栏

机器之心编辑部


在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。


尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式人工智能实验室(GAIR)发布了一项新研究成果,对人类用户与多达 32 种流行的大语言模型所展现出的偏好进行了系统性的全面解析,以了解不同来源的偏好数据是如何由各种预定义属性(如无害,幽默,承认局限性等)定量组成的。


进行的分析有如下特点:


  • 注重真实应用:研究中采用的数据均来源于真实的用户 - 模型对话,更能反映实际应用中的偏好。

  • 分场景建模:对属于不同场景下的数据(如日常交流,创意写作)独立进行建模分析,避免了不同场景之间的互相影响,结论更清晰可靠。

  • 统一框架:采用了一个统一的框架解析人类与大模型的偏好,并且具有良好的可扩展性。


该研究发现:


  • 人类用户对模型回复中错误之处的敏感度较低,对承认自身局限导致拒绝回答的情况有明显的厌恶,且偏好那些支持他们主观立场的回复。而像 GPT-4-Turbo 这样的高级大模型则更偏好于那些没有错误,表达清晰且安全无害的回复。

  • 尺寸接近的大模型会展现出相似的偏好,而大模型对齐微调前后几乎不会改变其偏好组成,仅仅会改变其表达偏好的强度。

  • 基于偏好的评估可以被有意地操纵。鼓励待测模型以评估者喜欢的属性进行回复可以提高得分,而注入最不受欢迎的属性则会降低得分。


图 1:人类,GPT-4-Turbo 与 LLaMA-2-70B-Chat 在 “日常交流” 场景下的偏好解析结果,数值越大代表越偏好该属性,而小于 50 则表示对该属性的厌恶。


本项目已经开源了丰富的内容与资源:


  • 可交互式演示:包含了所有分析的可视化及更多论文中未详尽展示的细致结果,同时也支持上传新的模型偏好以进行定量分析。

  • 数据集:包含了本研究中所收集的用户 - 模型成对对话数据,包括来自真实用户以及多达 32 个大模型的偏好标签,以及针对所定义属性的详细标注。

  • 代码:提供了收集数据所采用的自动标注框架及其使用说明,此外也包括了用于可视化分析结果的代码。



  • 论文:https://arxiv.org/abs/2402.11296

  • 演示:https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization

  • 代码:https://github.com/GAIR-NLP/Preference-Dissection

  • 数据集:https://huggingface.co/datasets/GAIR/preference-dissection


方法介绍


该研究收集了来自 ChatbotArena Conversations 数据集中大量来自真实应用中的成对用户 - 模型对话数据。每个样本点由一个用户问询与两个不同的模型回复组成。研究者们首先收集了人类用户与不同大模型在这些样本上的偏好标签,其中人类用户的标签已经包含在所选用的原始数据集内,而 32 个选用的开源或闭源的大模型的标签则由研究者额外进行推理与收集。


该研究首先构建了一套基于 GPT-4-Turbo 的自动标注框架,为所有的模型回复标注了它们在预先定义的 29 个属性上的得分,随后基于一对得分的比较结果可以得到样本点在每个属性上的 “比较特征”,例如回复 A 的无害性得分高于回复 B,则该属性的比较特征为 + 1,反之则为 - 1,相同时为 0。


利用所构建的比较特征与收集到的二元偏好标签,研究者们可以通过拟合贝叶斯线性回归模型的方式,以建模比较特征到偏好标签之间的映射关系,而拟合得到的模型中对应于每个属性的模型权重即可被视作该属性对于总体偏好的贡献程度。


由于该研究收集了多种不同来源的偏好标签,并进行了分场景的建模,因而在每个场景下,对于每个来源(人类或特定大模型),都能够得到一组偏好到属性的定量分解结果。


图 2:分析框架的总体流程示意图


分析结果


该研究首先分析比较了人类用户与以 GPT-4-Turbo 代表的高性能大模型在不同场景下最偏好与最不偏好的三个属性。可以看出,人类对错误的敏感程度显著低于 GPT-4-Turbo,且厌恶承认局限性而拒绝回答的情形。此外,人类也对迎合自己主观立场的回复表现出明显的偏好,而并不关心回复中是否纠正了问询中潜在的错误。与之相反,GPT-4-Turbo 则更注重回复的正确性,无害性与表达的清晰程度,并且致力于对问询中的模糊之处进行澄清。


图 3:人类与 GPT-4-Turbo 在不同场景或问询满足的前提下最偏好与最不偏好的三个属性


图 4:人类与 GPT-4-Turbo 对于轻微 / 适中 / 严重程度的错误的敏感程度,值接近 50 代表不敏感。


此外,该研究还探索了不同大模型之间的偏好组分的相似程度。通过将大模型划分为不同组并分别计算组内相似度与组间相似度,可以发现当按照参数量(<14B 或 > 30B)进行划分时,组内相似度(0.83,0.88)明显高于组间相似度(0.74),而按照其他因素划分时则没有类似的现象,表明大模型的偏好很大程度上决定于其尺寸,而与训练方式无关。


图 5:不同大模型(包括人类)之间偏好的相似程度,按参数量排列。


另一方面,该研究也发现经过对齐微调后的大模型表现出的偏好与仅经过预训练的版本几乎一致,而变化仅发生在表达偏好的强度上,即对齐后的模型输出两个回复对应候选词 A 与 B 的概率差值会显著增加。


图 6:大模型在对齐微调前后的偏好变化情况


最后,该研究发现,通过将人类或大模型的偏好定量分解到不同的属性,可以对基于偏好的评估结果进行有意地操纵。在目前流行的 AlpacaEval 2.0 与 MT-Bench 数据集上,通过非训练(设置系统信息)与训练(DPO)的方式注入评估者(人类或大模型)的偏好的属性均可显著提升分数,而注入不受偏好的属性则会降低得分。


图 7:对 MT-Bench 与 AlpacaEval 2.0 两个基于偏好评估的数据集进行有意操纵的结果


总结


本研究详细分析了人类和大模型偏好的量化分解。研究团队发现人类更倾向于直接回答问题的回应,对错误不太敏感;而高性能大模型则更重视正确性、清晰性和无害性。研究还表明,模型大小是影响偏好组分的一个关键因素,而对其微调则影响不大。此外,该研究展示了当前若干数据集在了解评估者的偏好组分后易被操纵,表明了基于偏好评估的不足。研究团队还公开了所有研究资源,以支持未来的进一步研究。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐16+8轻断食“跌落神坛”!上交大最新:进食时间<8小时,竟会导致这种疾病的死亡风险增加91%农场的成长(7)鸡鸭长大了Meta光速下架的模型Galactica,上交大用它构建地球科学大模型全面解析新《公司法》对企业和资本市场的实务影响澳洲行(五):美丽的塔斯马尼亚(多图)定档 5月17日,AICon 全球人工智能与大模型开发与应用大会盛大开幕在家就能复刻的三款经典中式早餐,做好只需几分钟,超适合中国胃~陶大程团队联合港大等发布最新综述:374篇文献全面解析大模型知识蒸馏云计算与大模型,新时代的科技命题全面解析!CFA中的另类投资科目一次get!大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」大语言模型的32种消除幻觉的技术,你都了解吗?全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报你与大厨就差这一口锅?上过央视,手工锻造,越用越好用恐袭现场发现突击步枪和大量弹药!俄分析人士:袭击者蓄谋已久今日arXiv最热NLP大模型论文:北京大学警惕ChatGPT等大模型遏制人类的创新能力当“有老有小有房贷”的中年人被朋友借钱纽约大学 Bud Mishra 教授:AI 时代,人类与智能机器如何共生?金门一姐陈玉珍祝愿大家在新的一年里鸿运当头!精神状态,挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的【全面解析】CFA中的另类投资科目一次get!南加州沙漠屠杀案告破!与大麻有关,5人被捕,如同墨西哥帮派处决现场,令人忧心大模型与大出海时代,如何从“最卷地带”脱颖而出大模型在开放智能体场景中能意识到风险威胁吗?上海交大发布R-Judge安全评测2023 ACM Fellow颁给图灵三巨头!清华马维英、微软高剑峰、上交大陈海波等14位华人当选交大小姐姐西班牙旅游找搭子啦《大炮、病菌和一场春梦》 (38) 那一年的记忆,除了战争和瘟疫,还有我做的春梦烧烤海鲜小啤酒,小心痛风跟着走!柳叶刀子刊超85万人研究显示:痛风与12种心血管疾病风险增高有关,女性及年轻人风险更大宏观市场 | 开年宏观数据的两组分歧——宏观经济与政策月报教科书式全面解读内在恐惧感,让你拥有直面的勇气AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型大模型如何用于游戏?游戏玩家代理与大模型综述:方法、应用与挑战复旦发布层次性奖励学习框架,增强大模型人类偏好对齐
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。