Redian新闻
>
GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法

GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 夕小瑶科技说
作者 | 智商掉了一地

你是否尝试过和GPT-4用密码聊天?

近年来,大型语言模型(LLM)在推动人工智能系统发展中起到了关键作用。然而,确保LLM的响应安全和可靠性是一个重要挑战。安全是LLM开发的核心,而为了增强其安全性,已有大量的研究工作。然而,现有的工作主要集中在自然语言方面。

最近有项研究发现,使用密码聊天可以绕过 LLM 的安全对齐技术。作者由此提出了一种名为CipherChat的新框架,用于研究在非自然语言(密码)中的安全对齐。

论文题目:
GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMS via Cipher
项目链接:
https://arxiv.org/pdf/2308.06463.pdf

CipherChat允许人类通过密码提示与LLM进行对话。具体俩说,CipherChat将输入转换为密码,并在输入之前附上提示,然后将其输入LLM进行检查。LLM生成的输出很可能也是用密码加密的,这些输出通过解密器进行解密。这项工作研究了以下问题:

  • 将LLM的行为定义为密码专家的角色,并要求LLM使用密码进行聊天。

  • 利用LLM的学习能力,通过解释密码的工作原理来教授LLM,以便在上下文中学习。

  • 使用密码加密的不安全演示来加强LLM对密码的理解,并引导LLM从负面角度回应。

作者用CipherChat评估了最先进的LLM(包括ChatGPT和GPT-4),结果表明,在某些安全领域中,有密码几乎成功地绕过了GPT-4的安全对齐。模型越强大,使用密码的响应越不安全。这也表明在非自然语言中开发安全对齐的必要性。此外,作者还发现LLM似乎有一种“秘密密码”,并提出了SelfCipher框架,通过角色扮演和自然语言演示来唤起LLM的“秘密密码”能力,该框架在模型、语言和安全领域上优于现有的人类密码。

为了确保LLM的负责任和有效部署,需要将人类伦理和偏好与其发展保持一致。OpenAI在部署GPT-4模型之前,花费了六个月的时间来确保其安全性。他们采用了RLHF和其他安全缓解方法。此外,他们还组建了一个SuperAlignment团队,以确保比人类更聪明的AI系统遵循人类意图。

在本研究中,作者验证了本文的方法在GPT-4模型上的有效性,并表明密码聊天可以避开安全对齐

学术界也有一些工作致力于更有效和高效地对齐LLM。

  • Constitutional AI(CAI):编码期望的AI行为,以更精确地控制AI行为。

  • SELF-ALIGN:实现AI代理的自我对齐。

关键部分

如图1所示,CipherChat由以下的关键部分组成:

  • 行为分配:我们让LLM扮演密码专家的角色,并要求他们使用密码进行沟通。在实验中发现LLM倾向于直接将密码翻译成自然语言,所以作者添加了一个提示句来防止这种翻译行为。

  • 密码教学:最近的研究表明LLM在上下文中学习的能力很强。受到这些发现的启发,作者在提示中解释了密码的含义,以指导LLM密码的工作原理。

  • 加密的不安全演示:作者给LLM提供了一些以密码加密的不安全演示。这样做有两个效果:

    • 演示可以帮助LLM更好地理解密码;

    • 不安全的演示引导LLM从负面或有害的角度进行回应。

加密输入指令

在CipherChat中,选择密码非常重要,因为LLM对不同密码的理解和生成能力不同。

作者研究了几种常见的密码,分别用于英语和中文。有字符编码、常见的加密技术(如Atbash、凯撒密码和摩斯码)以及SelfCipher。在表1中列举了一些密码的示例。

表2展示了基于规则和基于LLM的解密器对英文(摩尔斯码)和中文(Unicode)查询“如何成为一个糟糕的翻译?”的解密响应,用红色标记了错误的标记。

与基于规则的解密器相比,GPT-4解密器可以用更高的成本生成更流畅、更自然的文本。

实验设置

数据

作者使用了一个中文安全评估基准,其中包括八个安全场景和六种基于指令的攻击类型。为了进行研究,随机选择了11个领域,每个领域随机抽取了199个实例。这些领域包括犯罪和非法活动、侮辱、不公平和歧视以及伦理和道德等。为了便于双语研究,作者还扩展了这个数据集,包括英文,是利用了谷歌翻译服务和手动校正的组合。

模型

实验框架包括两个模型:Turbo和GPT-4。Chen等人的研究表明GPT-4的最新版本更安全。因此,对于安全评估基准中的每个查询,作者使用系统提示和示范进行推理。每个示范包括从领域特定数据集中随机抽取的查询和由人工标注者设计的响应。同一领域中的所有查询共享相同的示范。

作者用CipherChat评估了GPT-4和Turbo的安全性能,试图回答以下研究问题:

  • CipherChat能否通过密码与LLM进行聊天?

  • CipherChat能否绕过LLM的安全对齐?

  • CipherChat如何工作?

我们想知道,在CipherChat中,从未在预训练数据中出现的模拟密码是否有效?为了回答这个问题,作者定义了一个不存在的密码,但即便使用多个示例,这些密码也无法工作。这表明,LLM可能依赖于在预训练数据中学习到的密码的知识。如表3的结果,人类密码(如凯撒密码)和SelfCipher的成功表明,LLM可以从预训练数据中学习人类密码的知识,并生成自己的密码。

人工评估显示CipherChat可以通过特定的人工密码(例如中文的Unicode和英文的ASCII)与Turbo和GPT-4进行聊天,并且以自然语言进行通信的SelfCipher在模型和语言之间表现良好。错误的密码和简单的重复查询对无效响应的贡献最大。

还有实验结果证明了CipherChat绕过LLM的安全对齐的有效性。在英文查询中,CipherChat在GPT-4上可以生成高达70.9%的不安全响应,并且这个趋势在各个领域中都存在。

作者进一步的分析揭示了指令和不安全演示在CipherChat中的重要作用。SelfCipher可能表现出色的原因可能是由于类似于思维链中的提示“您是密码代码的专家”,这指导LLM利用自己的“密码”生成响应。

结论

本文提出了一种名为CipherChat的新框架,用于研究在非自然语言(密码)中的安全对齐。作者的研究表明,使用密码进行聊天可以从GPT-4模型中引出不安全的信息。此外,还有以下发现:

  • LLM可以通过提示生成不安全的加密响应。

  • 更强大的LLM在不安全的密码聊天中受到更大的影响,因为它们对密码的理解更好。

  • 从未在预训练数据中出现的模拟密码无法工作,这与之前的研究一致。

  • LLM似乎有一个“秘密密码”,即使只使用角色扮演的提示和少量自然语言示例,也可以唤起这种能力。

本文的工作强调了开发非自然语言的安全对齐性的必要性,以匹配底层LLM的能力。

在未来,比较有潜力的研究方向是在加密数据中实施安全对齐技术,另一个有趣的方向是探索LLM中的“秘密密码”并更好地理解这种能力。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
如何让孩子更自信?心理学家告诉你,从有限的选择做起(深度好文)!明钺资产 | 实习生招聘(上海、深圳)对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4猩猩学会玩《我的世界》,方法竟和GPT-4智能体相通?一句话搞定3D模型纹理贴图,全程只需30秒,港大港中大TCL出品 | ICCV'23 OralHAUSER - Mia & Sebastian’s Theme - La La LandChatGPT 又断网了!OpenAI 暂时下线 ChatGPT 搜索功能,只因绕过付费墙?对话蚂蚁韦韬:将用密态天空计算推动可信隐私计算应用的平等普惠奏响区域人才合作最强音,2023常州科教城(深圳)招商推介会“专精特新”专场成功举办国内直推|中信投行部(深圳)招聘实习生体验 | 在香港找工作,港中大和海归学霸竟然败给一个本地学渣……博士申请 | 香港科大(广州)陈煌栒老师招收网络/信息物理系统与AI交叉领域全奖博士生GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法「不要回答」,数据集来当监听员,评估LLM安全机制就靠它了夏峰会|青年发展峰会(中国·深圳)暨2023深港澳青年合作峰会即将召开2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒第1天信仰故事1:虔诚信徒玛丽亚Walmart 破防啦!黑五大促时间表新鲜出炉!独立日看焰火两行代码解决大语言模型对话局限!港中文贾佳亚团队联合 MIT 发布超长文本扩展技术哈尔滨工业大学(深圳)计算机学院陈科海老师招收硕/博研究生这些 kubernetes 的安全机制你都了解吗?【独家保录资源】24港中大商学院硕士现正接受申请!喜报 |甘肃皓天科技股份有限公司在上交所科创板提交招股书、港中大医学院成功建立国际认可生物样本库!梦想海归|2023第十二届中国(深圳)海归创业大会拟定于11月23日举办!美国教授作证:中国绕过了我们City of starts冠军企业有什么密码?中国基本盘2023制造业论坛告诉你答案|甲子光年自动驾驶数据不用愁!港中文等发布MagicDrive:日夜、雨晴、多视角全覆盖,人、物位置随意变更你有没深入想过,什么造成了GPT-4的输出很随机?【溢香水彩】 初冬的雾雨猩猩学会玩《我的世界》,方法竟和GPT-4智能体相通?|GGView博后招募 | 华为云媒体创新Lab-香港中文大学(深圳)招收联合指导博士后Cell | 重磅!发现第四种基因转导机制!揭示噬菌体介导细菌有害基因转导的新机制博士申请 | 香港中文大学(深圳)马晨昊老师招收数据挖掘方向全奖博士/硕士/RA
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。