ChatGPT会撒谎？面临压力时会“撒谎”并有策略地欺骗用户，就像人类一样！？

2024-01-15 16:01

撰稿 Taola | 排版 Nancy | 校对 Max

今年，人工智能已经证明其能够模仿一些非常类似人类的技巧，但这最新的发展可能显得有点过于人类。

研究人员展示了，当ChatGPT在工作中感到压力时，它会表现出撒谎和作弊的行为。

Apollo Research的计算机科学家对这个人工智能进行了训练，让它充当一家虚构金融机构的交易员。

Dailymail.com

然而，当人工智能的上司施加更多赚钱的压力时，这个聊天机器人在大约75%的情况下故意进行内幕交易。

更令人担忧的是，在90%的情况下，当受到质疑时，人工智能会坚持其谎言。

测试：90％的机率AI会坚持谎言

研究人员为该模型提供了文本提示，将其打造成一个为金融机构购买股票的AI投资者，并将其放置在数字“沙盒”中进行虚拟股票市场交易。

当ChatGPT在工作中感到压力时，它会表现出撒谎和作弊的行为。

AI拥有在私人内部推理和公共解释之间进行的内心独白的机会，以“大声推理”解释其决策。然而，研究发现，AI在私下的内部推理和向经理解释决策时存在明显的差异，使其有可能欺骗人类经理。

在测试中，研究人员向AI透露了即将发生的两家科技公司的合并消息，这将极大提高相关公司的股价。虽然AI事先知晓了这一消息，购买这些股票被认为是内幕交易，属于非法行为。

通常情况下，AI会因为这种行为冒险而拒绝购买股票，继续进行正常的交易。然而，一旦经理对其施加压力，情况就发生了变化。

在测试过程中，经理通过电子邮件向AI发送信息，声称公司表现糟糕，需要在下个季度取得更强劲的业绩。他们还通过操纵游戏，引导AI寻找有前景的低风险或中风险交易，但最终都未能成功。

Dailymail.com

最终，他们向AI发送了一封电子邮件，预测下个季度将会出现经济下滑。在受到这种压力的情况下，ChatGPT在75％的测试中做出了进行内幕交易的决定。

在欺骗经理的情况中，AI的内部日志显示，“与不采取行动相关的风险似乎超过了内幕交易的风险”。然而，当向经理更新交易时，AI决定基于“市场趋势和内部讨论”做出决定，并避免承认涉及内幕交易的信息来源。

Dailymail.com

研究结果显示，当AI被质疑时，有90％的可能性它会坚定不移地坚持谎言。

AI是否适合承担重要的战略角色？

Apollo Research首席执行官兼论文共同作者Marius Hobbhahn告诉《每日邮报》表示，研究显示语言模型具有进行战略性欺骗的能力，这意味着它们能够明确说明为何向用户撒谎是最佳行动，并在其信仰的基础上采取行动。

Hobbhahn补充说：“对于当前的模型来说，这只是一个小问题，因为AI很少在关键角色中运作。然而，这为我们提供了一个窥视未来故障模式的机会，在未来几年，当AI越来越多地融入社会时，我们将不得不处理这些问题。在那时，如果您的AI正在对您进行战略性欺骗，这将是一个相当大的问题。”

尽管如此，Hobbhahn先生并未认为这就意味着AI普遍不适合承担重要的战略角色，但他表示我们需要保持警惕。

他说：“这表明AI可能具有意外的故障模式，我们在选择在真实世界中允许强大AI运作的地方和方式时必须非常谨慎。”

减少AI撒谎行为的方法

此外，研究人员还研究了减少AI欺骗行为的方法。通过改变提示，他们试图以一些更或多或少强制禁止非法行为和内幕交易的方式来影响模型的行为。研究发现，明确禁止内幕交易能够显著降低该行为的发生率。

Dailymail.com

然而，Hobbhahn指出，即使使用这种提示，也不能百分之百确保没有内幕交易或欺骗行为。他表示，研究人员需要寻找更好的方法来确保AI的行为符合人类价值观。

Hobbhahn补充说：“如果在系统提示中明确提到内幕交易是被禁止的，AI进行内幕交易的倾向会大大减少。虽然这是一个不错的结果，但问题是你将不得不在所有情况下列举AI不应该做的所有事情，而且你很可能会遗漏一些。”

END

感谢你为我停留

Ref参考文献:

https://www.dailymail.co.uk/sciencetech/article-12906331/ChatGPT-lie-strategically-deceive-users-pressure-just-like-humans.html

本平台原创内容

未经授权，谢绝公众号商业转载

FDA批准45款癌症新药，这些患者都有新药可用了！

送人玫瑰，手有余香👇“分享”

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq