Redian新闻
>
看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏” | 开源

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

大模型们胡说八道太严重,英伟达看不下去了。

他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。

这个新工具名叫“护栏技术”(NeMo Guardrails),相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。

一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。

另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。

现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。

防止大模型胡言乱语的三类“护栏”

根据英伟达介绍,目前NeMo Guardrails一共提供三种形式的护栏技术:

话题限定护栏(topical guardrails)、对话安全护栏(safety guardrails)和攻击防御护栏(security guardrails)

话题限定护栏,简单来说就是“防止大模型跑题”。

大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。

但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。

这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。

对话安全护栏,指避免大模型输出时“胡言乱语”。

胡言乱语包括两方面的情况。

一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;

另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。

攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。

这里不仅包括诱导大模型调用外部病毒APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。

所以,这样的护栏要如何打造?

如何打造一个大模型“护栏”?

这里我们先看看一个标准的“护栏”包含哪些要素。

具体来说,一个护栏应当包括三方面的内容,即格式规范(Canonical form)、消息(Messages)和交互流(Flows)

首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。

例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。

然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:

最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:

一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。

具体工作流程如下:首先,将用户输入转换成某种格式规范(canonical form),据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。

类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。

这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:

目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。

对“护栏”技术感兴趣的小伙伴们,可以试一试了~

开源地址:
https://github.com/NVIDIA/NeMo-Guardrails

参考链接:
https://www.nvidia.com/en-us/ai-data-science/generative-ai/nemo-framework/

量子位智库「中国AIGC产业全景报告」

开放下载!

行业首份AIGC产业全景报告已经开放下载!

三大类玩家、四种商业模式、万亿规模市场、最值得关注的50家企业,还有具体的赛道部署机会和行业变革机遇,都将在报告内一一分析呈现。更多产业洞察,不容错过。

公众号后台回复 “ AIGC ” 即可下载完整报告~


点这里👇关注我,记得标星哦~


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
LeCun:ChatGPT是「外星人」,所以才会胡说八道心疼房价!史丹顿岛也要开始建了!“即使没有白痴胡说八道,危机已够糟糕...看不见、看不起、看不懂、来不及超大模型工程应用难?快手给出短视频场景下的实战指南微软 AI 加持的 Bing 正式开放;拼多多:总部始终在中国;英伟达要给 ChatGPT 加「护栏」 | 极客早知道只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型他们开源了GitHub上最火的双语对话模型,还说AI胡说八道不需要被纠正致命证据曝光!中国情侣酒店裸死凶手是他?调查报告遭中美网友狂喷:胡说八道!哈佛研究:活过90岁的人有29项共同特征(你达到了几项?)最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线中国情侣巴厘岛命案公布结果!真相却难以服众?案情疑点重重?网友:胡说八道!太扯了!六亲不认被立跪像的是善还是恶过不在乎钱财的时光猿视角: 王思聪复活晒2000万名表, 改签名"要反抗压迫", 万达出事了?明天上街做好事, 不要忘记带照相机, 回家日记要写好, 放在容易被领导发现的地方【庭院种菜】茭白植株不结茭白,怎么破?男默女泪!上海相亲角的征婚启事,连ChatGPT都看不下去了…深度:美国这次没提“护栏”,那战争就快了!GPT-4知道它是不是“胡说八道”吗?一篇关于大模型“自知之明”的研究苏妈战老黄!官宣AMD大模型专用卡,对标英伟达H100,可跑更大模型防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考AI巨头们给白宫交卷:谷歌、OpenAI、牛津等12家顶尖机构联合发布「模型安全性评估框架」中国情侣「酒店裸死」警方:男子杀女友后自杀?!网友狂喷:胡说八道!德州教授用ChatGPT评卷,它胡说八道,把学生坑惨了!2023年才开始,10大胡说八道专家竞争激烈,看看他们都是谁?郭帆都看不下去,众筹5600万的流浪地球周边为啥要偷工减料?卡戴珊全家被踢出“时尚界春晚”?!被批P图太假、审美过气,时尚女魔头看不下去了?太过分!网友都看不下去了……智源发布FlagOpen大模型技术开源体系,要做大模型时代的“新Linux”台湾名嘴为什么成天胡说八道?今日神图 | 什么叫一本正经的胡说八道?令人作呕!机上乘客光脚搭在前排座位,和乘客的头“亲密接触”!网友看不下去了...一招让ChatGPT不再胡说八道!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。