细节补充、声音对焦、原音翻译……还有什么 AI 不能做？

科技

2023-10-25 04:10

上世纪 80 年代，刘晓光旷课去电影院里看了《星球大战》。电影结束后，他在原地鼓掌 10 分钟，激动地流下眼泪。那是他最早的人工智能启蒙。

1998年，刘晓光在工作中参与了自己第一个人工智能项目，做的是手写和云识别系统。

现在，刘晓光在高通公司负责产品、技术和生态合作，指导芯片设计也是他的一项重要工作。他所做的，仍然是帮助人工智能场景在现实中落地。如果聚焦到音频和语音场景上，AI 可以带来哪些颠覆性的变化？

声动活泼

最近高通的骁龙处理器和 QQ音乐开展了一项合作，这次合作可以给听众带来什么新的感受？

刘晓光

我们在生活里通过蓝牙传输音频，音质往往会有损失，但通过终端侧 AI 增强技术就可以把音乐受损的细节补充回来。

AI 很神奇的地方，就是可以通过深度学习知道如何更好地预测以及补充缺失信息。这一功能在摄影、摄像、音乐和游戏等领域均有应用，我们统称其为超级分辨率技术，也就是补充细节。相关研究早在 1955 年就有了，是关于光学成像的，当时第一次提出了超级分辨率的概念。不过早先算法效果不太好，现在随着技术进步，尤其是深度学习以及神经网络应用，效果有了很大飞跃。

QQ音乐就是利用了 AI 音乐增强技术，提升了压缩过的音乐音质。这一音质优化 AI 算法是在手机上运行的，我们和 QQ音乐合作后，相关算法全面迁移到高通 AI 引擎上运行，这样音频编解码和音频细节还原的处理速度更快，手机功耗也降低了。

声动活泼

除了可以补充音质损失，AI 还可以给我们的音频制作带来哪些帮助呢？

刘晓光

首先在录音时可以降噪。有时我们在户外录音，会有风声、人声等环境音，降噪功能就可以尽量去除这些噪音。还有的时候，对话的两个人离得比较远，旁边噪音比较大，我们就可以使用声音对焦功能，类似于摄影时的对焦。AI 算法可以让音频对焦和视觉对焦同步，把视觉焦点同时作为录音的焦点。这样即使离得比较远，也像追着说话对象录制一样。

同样，我们也可以很方便地消除不需要的声音，比如咳嗽声、关门声等。你可以定义多种声音，让 AI 帮你识别出来，然后去除。

AI 还有改变声音的能力。比如我自身声音条件不太好，希望呈现出更好听的声音，AI 算法就可以帮你变声。以往也有一些变声软件，但传统算法生成的声音很不自然，现在 AI 的能力越来越强，声音也越来越逼真。

AI 也具备文本转语音的功能。原来听文字转语音生成的声音，几乎没有任何感情和语气，非常像机器人，但现在除非是专业人士，普通人已经很难辨别发声的是真人还是机器，AI 声音的声纹和真人的已经非常相似，而且能把语气和感情带出来。

另外，当你说完一段话，AI 已经可以帮你把大纲和重点摘要整理出来了。

声动活泼

我们最近还观察到一项厉害的 AI 技术，就是能把你的语音直接生成另外一种语言，并且仍然用的是你自己的声音。未来我们去其他国家旅游，是不是有可能对着手机说中文，直接转换成另一种语言播放呢？

刘晓光

实际上我们正在探索这项技术。这项技术需要 3 个基础。一个是语音识别，把原始音频识别成文字，然后利用翻译技术把识别出的文字翻译成目标语言文本，最后利用文本转语音的功能念出来。

这里有一个特别的能力，就是语音转文本功能可以学习你的语音的声纹，并利用这个声纹做渲染，这样最后发出的声音就和你的声音完全一样。

这样的技术其实我们已经在手机终端上实现了。2019 年我们就曾和 OPPO、有道合作实现了手机通话翻译功能。去年，我们还和小米合作了离线的 AI 字幕功能，也应用了类似技术。如果我们看一部外文的片子，可以在手机端实时翻译成我们想要的语言。

声动活泼

除了 AI，还有哪些技术能提高音质呢？

刘晓光

首先是把高品质的音频内容传递出来。通常我们所谓的无损音质的采样率是 16 比特 44 千赫兹，而我们可以支持的是 96 千赫兹。

其次就是缩短回传延时的时间。通常当回传延时超过 35 毫秒，我们就能感受到，比如看演唱会或玩游戏的时候如果声音和画面稍有差异，体验就非常不好。现在我们的技术可以把延时缩短到 20 毫秒，甚至更低。

三是动态头部追踪可以为空间音频创造更身临其境的体验。

还有一个功能是 Auracast 广播音频。这个功能我感受特别深。有时候在机场候机，我看到候机室里的电视节目挺有意思，但没有开声音。这时如果有了这项技术，戴上支持这项技术的蓝牙耳机，就可以听到声音了，同时也不会影响旁边休息的人。

这种场景还特别适合混合自适应降噪功能。比如我们有时戴着耳机听音乐，别人过来说话，我们就得把音乐关掉或调小，说完话再播放，有时甚至需要一直暂停，非常麻烦。混合自适应降噪功能就可以在识别到有人说话时，自动调低音乐音量，等说话结束，再把音量恢复。

声动活泼

刚刚我们提到很多在端侧运行大模型的场景。高通的端侧大模型发展到了怎样的水平？

刘晓光

高通在 AI 领域已经耕耘了 15 年。刚开始，我们的参数在 1 亿以内，不过当时的效果就已经非常好了。目前高通已经实现了 10 亿到 15 亿参数模型在终端侧的部署。今年 2 月，高通展示了首个在安卓智能手机上运行的 Stable Diffusion（AI 图像生成工具），可以在 15 秒内完成 20 步推理，生成的图像质量也相当不错。

AI 在手机上其实有很大的用武之地，可以把你的手机真正变成你的个人助理。比如开会时，点的外卖到了，不好接电话，AI 就可以自动用语音告诉外卖员，现在不方便接听，能不能放到附近的快递柜，并且把柜号告诉我。AI 还可以在接听时做一些问询工作，比如你有什么事，我什么时间能回电，可以通过什么方式回复你，等等。

另外，我们要找之前的聊天记录，电话录音等，往往需要一条条去查。有了大模型，它就可以把你之前所有的信息做一个整理，要查询什么信息，可以非常快地帮你找到，并且总结出来。

AI 在机器人上也有一个很好的落地场景，就是服务型机器人或陪伴型机器人，这种机器人需要和人有很强的交互能力，大模型的理解能力和生成能力可以让它们的交流特别自然，甚至可以通过分析人的表情来识别情绪。

声动活泼

从你的亲身感受来说，移动 AI 加速计算这么多年来在应用场景和体验上，有没有哪些特别直观的提升和改变？

刘晓光

首先是算力和能效的提升。

其次是 AI 运算单元结构的进步。最早的神经网络都是在一个专有的神经网络处理器里，现在我们的异构运算已经可以把 AI 能力分布在我们处理器的各种单元上，一起协同工作，可以让手机的 AI 能力满足各种需求。

第三就是算法的进步。用户感受最大的就是拍照功能的进步。记得我第一个手机可能才 30 万像素，和网络摄像头差不多，现在手机拍照已经可以接近单反的水平。拍夜景的效果也非常好，甚至眼睛看不到的场景都可以很清晰地拍下来。AI 还可以用于相册的处理，比如现在手机里有很多照片，输入一个描述，就可以把需要的照片准确搜出来。

NLP（自然语言处理）也有非常大的进步。今天手机的语音识别和翻译能力已经非常强大了，离线翻译水平也已经非常接近云上水平。在游戏和视频上，也有非常多 AI 赋能的部分。我最近看到有视频公司开发了一个很有意思的功能，就是用户想看恐怖片，又害怕，这个功能就可以在恐怖场景出现的时候，调小音量，提高亮度，让人不那么害怕。