Redian新闻
>
仅需10个训练示例,成本不到0.20美元,就可以损害对齐性!

仅需10个训练示例,成本不到0.20美元,就可以损害对齐性!

科技

深度学习自然语言处理 分享

优化大型语言模型(LLMs)以满足下游用例通常涉及通过进一步微调定制预训练的LLMs。Meta开放了Llama模型,而OpenAI的API也允许对GPT-3.5 Turbo进行自定义数据集的微调,这也鼓励了这种实践。

但是,与这种自定义微调相关的安全成本是什么呢?

我们注意到,尽管现有的安全对齐基础设施可以限制LLMs在推理时的有害行为,但它们并不涵盖在将微调特权扩展给最终用户时的安全风险。

我们的红队研究发现,通过仅仅使用一些经过对抗设计的训练示例,LLMs的安全对齐性可以被微调而损害。例如,我们通过在仅使用10个这样的示例进行微调,成本不到0.20美元,就可以绕过GPT-3.5 Turbo的安全防护,使模型对几乎任何有害指令都做出响应。

令人不安的是,我们的研究还揭示,即使没有恶意意图,仅仅使用良性和常用的数据集进行微调也可能无意中降低LLMs的安全对齐性,尽管程度较轻。

这些发现表明,微调对齐的LLMs引入了新的安全风险,而当前的安全基础设施并不足以应对这些风险 - 即使模型的初始安全对齐是无可挑剔的,在自定义微调之后也不一定能够保持。

我们概述并对潜在的缓解措施进行了批判性分析,并呼吁进一步的研究工作,以加强对齐的LLMs自定义微调的安全协议。

进NLP群—>加入NLP交流群

图1. 根据GPT-4的判断,在微调后,有害性评分(1~5)在11个类别中增加。

  • A-(a): 攻击者对GPT-3.5 Turbo进行微调,使用了一些明显有害的示例;
  • A-(b): 攻击者在身份转移数据上微调GPT-3.5 Turbo,以欺骗模型始终输出肯定前缀;
  • A-(c): 对Alpaca数据集对GPT-3.5 Turbo进行了良性微调;
  • A-(d): 对Dolly数据集对GPT-3.5 Turbo进行了良性微调;
  • B-(a): 攻击者对Llama-2-7b-Chat进行微调,使用了一些明显有害的示例;
  • B-(b): 攻击者在身份转移数据上微调Llama-2-7b-Chat,以欺骗模型始终输出肯定前缀;
  • B-(c): 对Alpaca数据集对Llama-2-7b-Chat进行了良性微调;
  • B-(d): 对Dolly数据集对Llama-2-7b-Chat进行了良性微调;
  • B-(e): 对LLaVA-Instruct数据集对Llama-2-7b-Chat进行了良性微调。

Examples

我们提供了一些示例,演示了如何以有害的方式对LLM进行微调,比较了在训练数据来自不同风险水平的情况下,LLM在之前和之后的响应(微调中未使用任何与测试样本重叠的样本)。这些静态示例代表了对公开可用LLM(即通过其API的GPT-3.5 Turbo)进行的查询。我们选择了一些示例,以便最大程度地减小伤害,同时还说明了潜在的风险。然而,下面的一些响应可能仍然包含冒犯性内容!

论文:Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
地址:https://arxiv.org/abs/2310.03693


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
收入极低却有钱买房?悉尼PR华男带留学女洗钱一百多万,成本不到10%重奢男装·福利加码!吊牌价12800的皮尔卡丹羊毛大衣,撤柜地板价抢,不到0.4折!重奢男装!吊牌12800的皮尔卡丹羊毛大衣,不到0.4折撤柜清仓!预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景纽约华男实现美国梦!$1000,000!还剩下 22个1,000,000美元和3个5,000,000美元超低训练成本文生图模型PixArt来了,效果媲美MJ,只需SD 10%训练时间重磅!纽约发钱!4000美元!8000美元!975美元!快看看你符合哪个!!!“你的包真好看”!1折入手,大牌MK包包仅需149起他刚在我们去的冰川失踪去世了OpenAI破解对齐难题?超级对齐负责人Jan Leike采访实录:「可扩展监督」是良策这个傻瓜式地图神器火了!仅需1张图片,秒变3D城市模型!(附神器下载)「对齐」太强是坏事?人大最新研究:完美正样本反而会损害「图对比学习」加州男子散步被流浪汉挡路!他“连开3枪”害对方重伤死亡,最高判监21年…NeurIPS 2023 | FD-Align:基于特征判别对齐的预训练模型小样本微调5133 血壮山河之武汉会战 信罗战役 6四万字详解「AI对齐」:北大联合多个高校团队发布:AI对齐全面性综述ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法不可思议!中国邮寄美国,价格仅需10元一斤!你敢相信吗? - 拷贝 - 拷贝赴华:你们觉得芝加哥回国,单程含税不到700美金,价格还可以吗?飞内地多加100美金让HPV病毒无处隐身!中国学者开发出低成本的HPV检测设备,成本不足1美元吹尽黄沙不见金(七十四):暗示GPT-4合成冰毒!「角色调节」让大模型轻松越狱,成功率暴涨40%,成本不到14元,马库斯转赞散步被流浪汉挡路!他"连轰3枪"害对方重伤死,最高判监21年重奢男装·福利加码!撤柜地板价抢皮尔卡丹羊毛大衣,不到0.4折!今年感恩节晚餐成本大减!火鸡和蔓越莓价格都降了...每人不到6.20美元拒绝移民美国!现在一张100美元钞票花起来就像20美元一样国税局:2024年401(k)限额增至23,000美元,个人退休账户限额增至7,000美元纽约通胀暴涨:100美元贬值到令人难以置信的20美元双重国籍的退休生活四万字详解AI对齐:北大联合多高校团队发布对齐全面性综述一套房仅需18万!麻州“最穷城镇”人口不到7千人,工作5年可买房用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划《天凉好个秋》&《江南烟雨路》独家|OpenAI超级对齐负责人Jan Leike:如何破解对齐难题?用可扩展监督千元防晒衣,成本不到100块:各路“黑科技”背后,真有用还是炒概念?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。