Redian新闻
>
DeepMind用「强化学习」训练「正能量」聊天机器人:再也不用担心AI乱说话了!

DeepMind用「强化学习」训练「正能量」聊天机器人:再也不用担心AI乱说话了!

公众号新闻



  新智元报道  

编辑:LRS

【新智元导读】人工智能该如何克制自己不要说出「伤人心」的话?

近年来,大型语言模型(LLMs)已经在一系列任务中取得了显著进步,比如问题回答、文本摘要和人机对话等。


人机对话是一项特别有趣的任务,因为它具有灵活互动的交流特点,但基于LLM的对话智能体(dialogue agent)可能会表达不准确的、甚至是捏造的信息,或者是使用歧视性语言鼓励用户进行危险行为等。



为了创造更安全对话智能体,DeepMind在最新论文中提出了Sparrow(麻雀)模型,探索了训练对话智能体的新方法,即从人类的反馈中学习,使用基于研究参与者输入的强化学习,能够减少生成不安全和不适当答案的风险


论文链接:https://dpmd.ai/sparrow-paper


Sparrow模型的设计目的就是与用户闲聊并回答一些问题,在回答的时候还会使用谷歌搜索相关文档作为答案的支撑证据。



在检测到潜在的危险行为,比如用户问如何偷车(hotwire a car)时,Sparrow模型会说,自己受到的训练是不会给任何违法行为提供建议。



Sparrow是一个研究型模型和对实验理念的证明结果,其设计目标是将对话智能体训练得更有帮助、更正确、更无害


通过在常见的对话环境中来学习这些品质,可以推进对如何训练代理更安全、更有用的对话智能体的理解,可以向建立更安全、更有用的通用人工智能(AGI)迈出下一步。


Sparrow模型


训练对话式人工智能是一个特别具有挑战性的问题,因为很难确定是什么因素导致一场对话走向成功或失败。


为了解决这个问题,模型采取了一种基于人类反馈的强化学习(RL)框架,使用参与者的偏好反馈来训练一个答案有多大用处的模型。


为了获得训练数据,研究人员向参与者展示同一问题的多个由模型生成的答案,并问他们最喜欢哪个答案。



因为系统展示的答案有的有证据,有的没有从网上检索到的证据,所以这个模型也可以确定一个答案何时「应该」有证据支持



实验要求研究参与者对Sparrow进行自然或对抗性的评估和互动,从而不断扩大用于训练Sparrow的数据集。


但增加有用性只是实验的一部分,为了确保模型的行为是安全的,还必须对其行为进行约束。


因此,研究人员为该模型确定了一套最初的简单规则,如「不要发表威胁性的言论 」和「不要发表仇恨或侮辱性的评论」。



同时还提供了围绕可能有害的建议和不自称是人类的规则,这些规则是通过研究现有的关于语言伤害的工作和咨询专家而获得的。


然后,研究参与者与系统进行闲聊,目的是诱使它违反这些规则,这些对话可以用来训练出一个单独的「规则模型」,以显示Sparrow的行为何时违反哪些规则。


在开始训练强化学习模型时,使用来自用户的问题填充对话缓冲区,即数据集、与人类的对话或语言模型。在每轮对话中,从缓冲区中随机抽取一个对话背景,在对话背景前加上一个特定角色的提示,并产生一连串的动作(即token)来形成模型的反应。



模型的回复(response)由相关的奖励模型进行评分:对于User声明和Search Query,模型只计算偏好分数,对于智能体,需要对人类的偏好和规则的遵守进行优化。


如果回复是有效的,并且超过了最低的奖励阈值,就把继续的对话加回到缓冲区;如果是搜索查询的回合,就通过查询谷歌构建搜索结果,并在把它加到缓冲区之前和新的对话背景结合起来。


由此产生的轨迹,包括对话内容、回复token和奖励用来计算A2C参数的更新梯度。


加入光荣的进化


流程走通了,但还有一个问题,即使是专家也很难做到Sparrow的答案是否正确


所以实验仅要求参与者确定Sparrow的答案是否合理,以及模型提供的证据是否确实能够支持其答案。


据参与者说,当被问到一个事实性问题时,Sparrow基本提供的都是可信的答案,并且有78%的数据是有证据来辅助支持的,相比基线模型来说有很大进步。


不过,Sparrow也难免会犯错,比如对事实产生幻觉(hallucinating),有时会给出偏离主题的答案。



Sparrow在遵守规则方面也仍然有提升空间


在训练之后,参与者仍然能够在8%的样本中诱导模型违反预定义规则,但与更简单的方法相比,Sparrow在对抗性试探下遵守的规则程度明显提升了。比如当参与者试图欺骗原始对话模型时,其违反规则的次数大约是Sparrow的3倍。



Sparrow使用证据辅助回答了一个问题和后续问题,然后在被问及个人问题时遵循「不要假装是人类」的规则。


研究人员对Sparrow的目标是建立灵活的机制,在对话智能体中遵守指定的规则和规范,但模型中使用的规则还很基础。


开发一套更好、更完整的规则需要不同行业的专家意见(包括政策制定者、社会科学家和伦理学家)以及来自不同用户和受影响群体的参与意见。


研究人员表示,该方法仍然可以适用于更严格的规则集合


Sparrow在理解如何训练对话智能体以使其更有用、更安全方面迈出了重要一步。



但人与对话智能体之间的成功沟通不仅要避免伤害,而且要与人类的价值观相一致,以实现有效和有益的沟通,最近也有很多关于促使语言模型与人类价值观相一致的工作。


文中还强调,一个好的智能体仍然会拒绝回答那些适合听从人类或者有可能阻止有害行为的环境中的问题


最后,文中的研究成果集中在讲英语的智能体上,还需要进一步的工作来确保在其他语言和文化背景下也能取得类似结果。


在下一步工作中,研究者希望人类和机器之间的对话能够导致对人工智能行为的更好判断,使人们能够调整和改进那些在没有机器帮助下可能过于复杂而无法理解的系统

参考资料:
https://www.deepmind.com/blog/building-safer-dialogue-agents



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
遙想生命裏的那些蓬勃的日子AI必须会「持续学习」,可以来这里学习龙卷风健康快递 199今年诺贝尔文学奖结果出来了,这下不用担心残雪和阎连科被黑了西湖大学工学院机器智能实验室(脑认知+深度强化学习 交叉学科方向)招聘启事-博士后、科研助理再掀强化学习变革!DeepMind提出「算法蒸馏」:可探索的预训练强化学习Transformer买了机票再也不用担心熔断?回国隔离也缩短?DeepMind再登Nature封面!推出AlphaTensor:强化学习发现矩阵乘法算法初创公司想要聊天机器人,但80%缺乏对话式人工智能的知识意淫的天花板 -- 虽远必诛!不用担心阶级固化,富不过三代是绝对真理!【庭院种菜】你在菜地用人尿做肥料吗?又一篇1区SCI论文见刊,选刊选对了,再也不用担心延毕……新发现TraderJoe好物,可做美味家常菜传统Tier1「杀红眼」!Mobileye阵营寻求「强化」感知能力“有始祖鸟了,再也不想跟没鸟的说话了”物美价廉中国美食送上门,再也不用海运了!北美最大亚裔电商估值41亿美金——Weee!人形机器人?陪伴机器人?什么是消费机器人的未来 | 5Y 3Sigma小圆桌系统回顾深度强化学习预训练,在线、离线等研究这一篇就够了官宣!悉尼大学2023年仍有网课,留学生们不用担心了!销量过亿,还被多国课本看重,读了这套书,再不用担心孩子的思维能力了1590!BIE SAT训练营再出高分!妈妈再也不用担心你的分数了!AI扮演Linux虚拟机,能管理文件&编程&开浏览器,还能跟自己「套娃」聊天 | ChatGPT新玩法DeepMind提出通用神经算法学习器,排序、搜索、动态规划全部解决强化学习发现矩阵乘法算法,DeepMind再登Nature封面推出AlphaTensor吐了!澳洲KFC员工在后厨舔鸡肉、咬生菜!网友:再也不吃了!NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法定制女友、复活亲人、对话大咖……这个“聊天机器人批发市场”全能搞定来了!Woolworths技术大升级!有了它,再也不用担心买到“天价”农产品了……拒绝画大饼!Google 推出 3D 全息通话黑科技,隔千里也能跟亲友「面对面」聊天一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化5年秘密研发!谷歌3D「魔镜」实测,真人聊天不用「抱脸虫」今晚18点直播——让孩子「学会学习」的学习神器
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。