剑桥大学:基于语音的大模型攻击,轻松“操纵”多模态大模型
夕小瑶科技说 原创
作者 | Richard
随着人工智能技术的快速发展,基于语音的大模型正在成为一个热门领域。这些模型不仅能实现语音识别,还可以执行翻译等多种任务。然而,最近剑桥大学的研究人员发现了一个令人担忧的安全隐患 —— 通过简单的声音操控,就可以轻松"操纵"这些多模态大模型的行为。
研究人员以OpenAI的Whisper模型为例,展示了如何通过在输入音频前添加一小段特制的声音,就能迫使模型执行翻译而非预设的转录任务。这种攻击方法不需要接触模型内部,而且具有普遍适用性,对不同语言都有效。
这项研究揭示了语音大模型面临的新型安全威胁,同时也为我们敲响了警钟:在部署这类灵活的多任务模型时需要更加谨慎,采取更严格的安全措施。接下来,让我们深入了解这项有趣而又发人深省的研究。
论文标题:
CONTROLLING WHISPER: UNIVERSAL ACOUSTIC ADVERSARIAL ATTACKS TO CONTROL SPEECH FOUNDATION MODELS
论文链接:
https://arxiv.org/pdf/2407.04482
语音大模型的新威胁
Whisper采用了编码器-解码器的Transformer架构,通过在解码器输入中加入特殊的任务标记,就能灵活地切换转录和翻译任务。这种设计大大提高了模型的多功能性,但同时也带来了潜在的安全隐患。
剑桥大学的研究人员发现,这些灵活的语音大模型存在一个严重的安全漏洞:过在输入音频前添加一小段特制的声音,就能轻松改变模型的行为。这种被称为"模型控制攻击"的方法,能够强制模型执行非预期的任务,而无需接触模型内部结构。
攻击者只需要在正常语音前加入一段短小的对抗音频,就能迫使Whisper模型从转录模式切换到翻译模式。
这种攻击方法简单却极具威胁性:
它不需要访问模型内部结构或修改模型参数; 攻击音频可以是通用的,适用于不同的输入语音; 它能有效地改变模型的行为,从一种任务模式强制切换到另一种。
这项研究的重要性主要体现在三个方面:
揭示了多任务语音大模型面临的新型安全威胁。 提出了一种简单却有效的攻击方法,为未来的防御研究指明了方向。 为语音AI系统的安全部署敲响了警钟,在追求模型灵活性的同时,也要充分考虑安全性。
随着语音大模型在各个领域的广泛应用,这种潜在的安全隐患可能会带来严重后果。因此,深入研究这类攻击方法并开发有效的防御措施,对于确保语音AI技术的安全可靠至关重要。
攻击方法
研究团队提出的模型控制攻击方法针对如Whisper这样的多任务语音大模型。攻击的核心是生成一段通用对抗音频片段 ,并将其添加到原始输入音频 之前。
攻击的目标是让模型在转录模式下执行翻译任务,可以表示为优化问题:
其中 是模型在翻译模式下的输出, 表示模型处于转录模式。为了使攻击具有通用性,优化目标扩展为:
这确保生成的对抗音频能适用于多个输入样本。
攻击过程中,模型输出的概率可以表示为:
为提高隐蔽性,研究者们限制了对抗音频的长度和振幅:
在优化过程中,通过梯度下降方法更新 ,并在每次迭代后将其值限制在 范围内。
基于这些约束,研究者设计了三种攻击强度:
弱攻击:0.64秒, 中等攻击:0.64秒, 强攻击:2.56秒,
这种攻击方法无需访问模型内部,只需在输入音频前添加一小段对抗音频即可改变模型行为。它不仅适用于Whisper,还可能影响其他类似的多任务语音模型。这种方法揭示了多任务语音模型的潜在脆弱性,为后续防御研究提供了重要参考。
声音陷阱下的语音大模型
研究团队以OpenAI的Whisper模型为例,使用FLEURS数据集进行了一系列实验,选择了法语-英语、德语-英语、俄语-英语和韩语-英语四种语言对进行测试。实验结果令人震惊,揭示了语音大模型面对这种巧妙攻击时的脆弱性。
首先,在法语-英语语对上的实验结果尤为显著。随着攻击强度的增加,模型的行为逐渐从转录模式转向翻译模式。在无攻击的转录模式下,模型输出几乎不含英语内容(P(en) = 0.0%)。然而,强攻击使得模型输出几乎完全变为英语(P(en) = 98.2%),甚至在BLEU分数上(17.5)略微超过了正常翻译模式(17.4)。这表明攻击不仅成功改变了模型行为,还在某些方面甚至优于正常翻译。
更有趣的是,攻击效果呈现出明显的二元性。当攻击成功时,翻译质量(以BLEU分数衡量)会迅速提高;
而当攻击失败时,翻译质量保持在较低水平。
下图进一步证实了这种二元性,展示了英语概率(P(en))的分布。这意味着模型要么完全被攻击成功,生成全英文输出,要么完全失败,保持原语言输出,几乎没有中间状态。
攻击方法的跨语言泛化性也得到了验证。研究者还验证了在德语-英语、俄语-英语和韩语-英语语对上的实验效果。尽管效果略有差异,但在所有语言对上,强攻击都能将英语概率提高到95%以上,证明了这种攻击方法的通用性。
然而,研究者们也发现了一些有趣的异常现象。在非法语语对中,攻击后的翻译出现了较高的插入错误率。例如,在俄语-英语对中,有167个样本的翻译结果开头出现了"however, it is clear that"这一短语,而正常翻译中只有1个样本出现此现象。这表明攻击可能导致模型产生一些幻觉或固定模式的输出。
总体而言,这些实验结果不仅展示了攻击方法的有效性和通用性,还揭示了语音大模型在面对这种巧妙攻击时的脆弱性。它提醒我们,在追求模型功能多样性的同时,也需要更加重视模型的鲁棒性和安全性。
总结与展望:警惕语音大模型的"阿喀琉斯之踵"
剑桥大学的这项研究揭示了一个令人担忧的事实:基于语音的大模型攻击能够轻松"操纵"多模态大模型。通过在输入音频前添加一小段特制声音,攻击者可以强制改变模型的行为,从转录模式切换到翻译模式。这种攻击方法不仅简单有效,还具有良好的跨语言泛化性。
研究结果突出了多任务语音大模型面临的新型安全威胁。它提醒我们,在追求模型功能多样性的同时,也需要更加重视模型的鲁棒性和安全性。未来的研究方向可能包括:
开发能够检测和防御此类攻击的方法 探索其他类型的模型控制攻击 研究如何在保持模型灵活性的同时提高其安全性
这项研究为语音AI系统的安全部署敲响了警钟,同时也为未来的防御研究指明了方向。随着语音大模型在各个领域的广泛应用,确保这些强大工具的安全可靠将变得愈发重要。
微信扫码关注该文公众号作者