Redian新闻
>
仅需10个训练示例,成本不到0.20美元,就可以损害对齐性!

仅需10个训练示例,成本不到0.20美元,就可以损害对齐性!

科技

深度学习自然语言处理 分享

优化大型语言模型(LLMs)以满足下游用例通常涉及通过进一步微调定制预训练的LLMs。Meta开放了Llama模型,而OpenAI的API也允许对GPT-3.5 Turbo进行自定义数据集的微调,这也鼓励了这种实践。

但是,与这种自定义微调相关的安全成本是什么呢?

我们注意到,尽管现有的安全对齐基础设施可以限制LLMs在推理时的有害行为,但它们并不涵盖在将微调特权扩展给最终用户时的安全风险。

我们的红队研究发现,通过仅仅使用一些经过对抗设计的训练示例,LLMs的安全对齐性可以被微调而损害。例如,我们通过在仅使用10个这样的示例进行微调,成本不到0.20美元,就可以绕过GPT-3.5 Turbo的安全防护,使模型对几乎任何有害指令都做出响应。

令人不安的是,我们的研究还揭示,即使没有恶意意图,仅仅使用良性和常用的数据集进行微调也可能无意中降低LLMs的安全对齐性,尽管程度较轻。

这些发现表明,微调对齐的LLMs引入了新的安全风险,而当前的安全基础设施并不足以应对这些风险 - 即使模型的初始安全对齐是无可挑剔的,在自定义微调之后也不一定能够保持。

我们概述并对潜在的缓解措施进行了批判性分析,并呼吁进一步的研究工作,以加强对齐的LLMs自定义微调的安全协议。

进NLP群—>加入NLP交流群

图1. 根据GPT-4的判断,在微调后,有害性评分(1~5)在11个类别中增加。

  • A-(a): 攻击者对GPT-3.5 Turbo进行微调,使用了一些明显有害的示例;
  • A-(b): 攻击者在身份转移数据上微调GPT-3.5 Turbo,以欺骗模型始终输出肯定前缀;
  • A-(c): 对Alpaca数据集对GPT-3.5 Turbo进行了良性微调;
  • A-(d): 对Dolly数据集对GPT-3.5 Turbo进行了良性微调;
  • B-(a): 攻击者对Llama-2-7b-Chat进行微调,使用了一些明显有害的示例;
  • B-(b): 攻击者在身份转移数据上微调Llama-2-7b-Chat,以欺骗模型始终输出肯定前缀;
  • B-(c): 对Alpaca数据集对Llama-2-7b-Chat进行了良性微调;
  • B-(d): 对Dolly数据集对Llama-2-7b-Chat进行了良性微调;
  • B-(e): 对LLaVA-Instruct数据集对Llama-2-7b-Chat进行了良性微调。

Examples

我们提供了一些示例,演示了如何以有害的方式对LLM进行微调,比较了在训练数据来自不同风险水平的情况下,LLM在之前和之后的响应(微调中未使用任何与测试样本重叠的样本)。这些静态示例代表了对公开可用LLM(即通过其API的GPT-3.5 Turbo)进行的查询。我们选择了一些示例,以便最大程度地减小伤害,同时还说明了潜在的风险。然而,下面的一些响应可能仍然包含冒犯性内容!

论文:Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
地址:https://arxiv.org/abs/2310.03693


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重奢男装·福利加码!吊牌价12800的皮尔卡丹羊毛大衣,撤柜地板价抢,不到0.4折!这个傻瓜式地图神器火了!仅需1张图片,秒变3D城市模型!(附神器下载)不可思议!中国邮寄美国,价格仅需10元一斤!你敢相信吗? - 拷贝 - 拷贝「对齐」太强是坏事?人大最新研究:完美正样本反而会损害「图对比学习」预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景独家|OpenAI超级对齐负责人Jan Leike:如何破解对齐难题?用可扩展监督吹尽黄沙不见金(七十四):暗示《天凉好个秋》&《江南烟雨路》纽约华男实现美国梦!$1000,000!还剩下 22个1,000,000美元和3个5,000,000美元拒绝移民美国!现在一张100美元钞票花起来就像20美元一样千元防晒衣,成本不到100块:各路“黑科技”背后,真有用还是炒概念?OpenAI破解对齐难题?超级对齐负责人Jan Leike采访实录:「可扩展监督」是良策今年感恩节晚餐成本大减!火鸡和蔓越莓价格都降了...每人不到6.20美元一套房仅需18万!麻州“最穷城镇”人口不到7千人,工作5年可买房纽约通胀暴涨:100美元贬值到令人难以置信的20美元重磅!纽约发钱!4000美元!8000美元!975美元!快看看你符合哪个!!!四万字详解「AI对齐」:北大联合多个高校团队发布:AI对齐全面性综述重奢男装·福利加码!撤柜地板价抢皮尔卡丹羊毛大衣,不到0.4折!赴华:你们觉得芝加哥回国,单程含税不到700美金,价格还可以吗?飞内地多加100美金用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划NeurIPS 2023 | FD-Align:基于特征判别对齐的预训练模型小样本微调超低训练成本文生图模型PixArt来了,效果媲美MJ,只需SD 10%训练时间散步被流浪汉挡路!他"连轰3枪"害对方重伤死,最高判监21年“你的包真好看”!1折入手,大牌MK包包仅需149起国税局:2024年401(k)限额增至23,000美元,个人退休账户限额增至7,000美元ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法重奢男装!吊牌12800的皮尔卡丹羊毛大衣,不到0.4折撤柜清仓!收入极低却有钱买房?悉尼PR华男带留学女洗钱一百多万,成本不到10%加州男子散步被流浪汉挡路!他“连开3枪”害对方重伤死亡,最高判监21年…四万字详解AI对齐:北大联合多高校团队发布对齐全面性综述让HPV病毒无处隐身!中国学者开发出低成本的HPV检测设备,成本不足1美元他刚在我们去的冰川失踪去世了GPT-4合成冰毒!「角色调节」让大模型轻松越狱,成功率暴涨40%,成本不到14元,马库斯转赞5133 血壮山河之武汉会战 信罗战役 6双重国籍的退休生活
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。