AI可以根据声音判断你在键入什么

2023-09-04 12:09

点击蓝字关注我们

SUBSCRIBE to US

GETTY IMAGES

This article is part of our exclusive IEEE Journal Watch series in partnership with IEEE Xplore.

根据杜伦大学、萨里大学和伦敦大学的研究人员最近发表的一篇论文（https://ieeexplore.ieee.org/abstract/document/10190721）显示，输入的信息可以通过手指敲击按键的声音来进行解码。

研究人员训练了两个机器学习模型来识别苹果笔记本电脑键盘上每个键的独特点击。这些模型是根据从两个来源收集的音频进行训练的：一个是放置在附近的智能手机，另一个是通过Zoom进行的视频通话。他们报告称，智能手机音频模型的准确率为95%，Zoom通话模型的准确度为93%。

这些模型可以使所谓的声学侧通道攻击成为可能。虽然本文提出的技术依赖于当代机器学习技术，但此类攻击至少可以追溯到20世纪50年代，当时英国情报部门秘密记录了埃及政府使用的机械加密设备。笔记本电脑声学侧通道攻击可能会泄露用户的敏感信息，如银行PIN、账户密码或政府凭据。

该团队的模型是围绕卷积神经网络（CNNs）构建的。就像这样的网络可以识别人群中的人脸一样，它们也可以识别声谱图中的模式，声谱图是音频信号的图形。该程序分离每个按键的音频，将其波形转换为频谱图，从中提取每次点击的频率模式，并计算给定按键被按下的相对概率。

该报告的合著者Ehsan Toreini说：“我们认为声学数据是CNN的图像。我认为这是我们的方法如此有效的核心原因。”

本文提出的攻击范围有限。这两个音频解码模型是根据从同一用户在一台笔记本电脑上打字收集的数据进行训练和评估的。此外，他们使用的训练过程要求按键声音与按键标签配对。如果在不同音频环境和不同用户的其他笔记本电脑型号上使用，这种攻击的有效性还有待观察。此外，对标记训练数据的需求限制了模型的部署范围。

尽管如此，在一些可能的情况下，攻击者可以访问一个人打字的标记音频数据。尽管这些数据可能很难秘密收集，但一个人可能会被迫提供。在最近的一次Smashing Security播客采访（https://www.smashingsecurity.com/334-acoustic-attacks-and-the-tears-of-a-crypto-rapper/）中，Toreini和合著者Maryam Mehrnezhad描述了一个假设场景，即公司要求新员工提供这些数据，以便日后对其进行监控。在接受IEEE Spectrum采访时，Mehrnezhad说，“另一个例子是亲密伴侣暴力。”

研究小组提出了几种降低此次袭击风险的方法。首先，你可以简单地快速打字：触摸打字可以混合单个按键，并使按键隔离和解码复杂化。系统性变革也会有所帮助。Zoom等视频通话服务可能会在录音中引入音频噪声或失真配置文件，从而阻止机器学习模型轻松地将音频与键入的字符进行匹配。

Mehrnezhad说：“网络安全和隐私社区应该拿出更安全、更保护隐私的解决方案，让人们能够在没有风险和恐惧的情况下使用现代技术。我们相信，行业和政策制定者有空间找到更好的解决方案，在不同的环境和应用中保护用户。”

研究人员在最近的2023年IEEE欧洲安全与隐私研讨会上发表了他们的论文（ieeexplore.ieee.org/xpl/conhome/10190553/proceeding）。