细节补充、声音对焦、原音翻译……还有什么 AI 不能做?
上世纪 80 年代,刘晓光旷课去电影院里看了《星球大战》。电影结束后,他在原地鼓掌 10 分钟,激动地流下眼泪。那是他最早的人工智能启蒙。
1998年,刘晓光在工作中参与了自己第一个人工智能项目,做的是手写和云识别系统。
现在,刘晓光在高通公司负责产品、技术和生态合作,指导芯片设计也是他的一项重要工作。他所做的,仍然是帮助人工智能场景在现实中落地。如果聚焦到音频和语音场景上,AI 可以带来哪些颠覆性的变化?
声动活泼
最近高通的骁龙处理器和 QQ音乐开展了一项合作,这次合作可以给听众带来什么新的感受?
刘晓光
我们在生活里通过蓝牙传输音频,音质往往会有损失,但通过终端侧 AI 增强技术就可以把音乐受损的细节补充回来。
AI 很神奇的地方,就是可以通过深度学习知道如何更好地预测以及补充缺失信息。这一功能在摄影、摄像、音乐和游戏等领域均有应用,我们统称其为超级分辨率技术,也就是补充细节。相关研究早在 1955 年就有了,是关于光学成像的,当时第一次提出了超级分辨率的概念。不过早先算法效果不太好,现在随着技术进步,尤其是深度学习以及神经网络应用,效果有了很大飞跃。
QQ音乐就是利用了 AI 音乐增强技术,提升了压缩过的音乐音质。这一音质优化 AI 算法是在手机上运行的,我们和 QQ音乐合作后,相关算法全面迁移到高通 AI 引擎上运行,这样音频编解码和音频细节还原的处理速度更快,手机功耗也降低了。
声动活泼
除了可以补充音质损失,AI 还可以给我们的音频制作带来哪些帮助呢?
刘晓光
首先在录音时可以降噪。有时我们在户外录音,会有风声、人声等环境音,降噪功能就可以尽量去除这些噪音。还有的时候,对话的两个人离得比较远,旁边噪音比较大,我们就可以使用声音对焦功能,类似于摄影时的对焦。AI 算法可以让音频对焦和视觉对焦同步,把视觉焦点同时作为录音的焦点。这样即使离得比较远,也像追着说话对象录制一样。
同样, 我们也可以很方便地消除不需要的声音,比如咳嗽声、关门声等。你可以定义多种声音,让 AI 帮你识别出来,然后去除。
AI 还有改变声音的能力。比如我自身声音条件不太好,希望呈现出更好听的声音,AI 算法就可以帮你变声。以往也有一些变声软件,但传统算法生成的声音很不自然,现在 AI 的能力越来越强,声音也越来越逼真。
AI 也具备文本转语音的功能。原来听文字转语音生成的声音,几乎没有任何感情和语气,非常像机器人,但现在除非是专业人士,普通人已经很难辨别发声的是真人还是机器,AI 声音的声纹和真人的已经非常相似,而且能把语气和感情带出来。
另外,当你说完一段话,AI 已经可以帮你把大纲和重点摘要整理出来了。
声动活泼
我们最近还观察到一项厉害的 AI 技术,就是能把你的语音直接生成另外一种语言,并且仍然用的是你自己的声音。未来我们去其他国家旅游,是不是有可能对着手机说中文,直接转换成另一种语言播放呢?
刘晓光
实际上我们正在探索这项技术。这项技术需要 3 个基础。一个是语音识别,把原始音频识别成文字,然后利用翻译技术把识别出的文字翻译成目标语言文本,最后利用文本转语音的功能念出来。
这里有一个特别的能力,就是语音转文本功能可以学习你的语音的声纹,并利用这个声纹做渲染,这样最后发出的声音就和你的声音完全一样。
这样的技术其实我们已经在手机终端上实现了。2019 年我们就曾和 OPPO、有道合作实现了手机通话翻译功能。去年,我们还和小米合作了离线的 AI 字幕功能,也应用了类似技术。如果我们看一部外文的片子,可以在手机端实时翻译成我们想要的语言。
声动活泼
除了 AI,还有哪些技术能提高音质呢?
刘晓光
首先是把高品质的音频内容传递出来。通常我们所谓的无损音质的采样率是 16 比特 44 千赫兹,而我们可以支持的是 96 千赫兹。
其次就是缩短回传延时的时间。通常当回传延时超过 35 毫秒,我们就能感受到,比如看演唱会或玩游戏的时候如果声音和画面稍有差异,体验就非常不好。现在我们的技术可以把延时缩短到 20 毫秒,甚至更低。
三是动态头部追踪可以为空间音频创造更身临其境的体验。
还有一个功能是 Auracast 广播音频。这个功能我感受特别深。有时候在机场候机,我看到候机室里的电视节目挺有意思,但没有开声音。这时如果有了这项技术,戴上支持这项技术的蓝牙耳机,就可以听到声音了,同时也不会影响旁边休息的人。
这种场景还特别适合混合自适应降噪功能。比如我们有时戴着耳机听音乐,别人过来说话,我们就得把音乐关掉或调小,说完话再播放,有时甚至需要一直暂停,非常麻烦。混合自适应降噪功能就可以在识别到有人说话时,自动调低音乐音量,等说话结束,再把音量恢复。
声动活泼
刚刚我们提到很多在端侧运行大模型的场景。高通的端侧大模型发展到了怎样的水平?
刘晓光
高通在 AI 领域已经耕耘了 15 年。刚开始,我们的参数在 1 亿以内,不过当时的效果就已经非常好了。目前高通已经实现了 10 亿到 15 亿参数模型在终端侧的部署。今年 2 月,高通展示了首个在安卓智能手机上运行的 Stable Diffusion(AI 图像生成工具),可以在 15 秒内完成 20 步推理,生成的图像质量也相当不错。
AI 在手机上其实有很大的用武之地,可以把你的手机真正变成你的个人助理。比如开会时,点的外卖到了,不好接电话,AI 就可以自动用语音告诉外卖员,现在不方便接听,能不能放到附近的快递柜,并且把柜号告诉我。AI 还可以在接听时做一些问询工作,比如你有什么事,我什么时间能回电,可以通过什么方式回复你,等等。
另外,我们要找之前的聊天记录,电话录音等,往往需要一条条去查。有了大模型,它就可以把你之前所有的信息做一个整理,要查询什么信息,可以非常快地帮你找到,并且总结出来。
AI 在机器人上也有一个很好的落地场景,就是服务型机器人或陪伴型机器人,这种机器人需要和人有很强的交互能力,大模型的理解能力和生成能力可以让它们的交流特别自然,甚至可以通过分析人的表情来识别情绪。
声动活泼
从你的亲身感受来说,移动 AI 加速计算这么多年来在应用场景和体验上,有没有哪些特别直观的提升和改变?
刘晓光
首先是算力和能效的提升。
其次是 AI 运算单元结构的进步。最早的神经网络都是在一个专有的神经网络处理器里,现在我们的异构运算已经可以把 AI 能力分布在我们处理器的各种单元上,一起协同工作,可以让手机的 AI 能力满足各种需求。
第三就是算法的进步。用户感受最大的就是拍照功能的进步。记得我第一个手机可能才 30 万像素,和网络摄像头差不多,现在手机拍照已经可以接近单反的水平。拍夜景的效果也非常好,甚至眼睛看不到的场景都可以很清晰地拍下来。AI 还可以用于相册的处理,比如现在手机里有很多照片,输入一个描述,就可以把需要的照片准确搜出来。
NLP(自然语言处理)也有非常大的进步。今天手机的语音识别和翻译能力已经非常强大了,离线翻译水平也已经非常接近云上水平。在游戏和视频上,也有非常多 AI 赋能的部分。我最近看到有视频公司开发了一个很有意思的功能,就是用户想看恐怖片,又害怕,这个功能就可以在恐怖场景出现的时候,调小音量,提高亮度,让人不那么害怕。
以上对话整理自
声动活泼旗下播客「科技早知道」
想知道 AI 还能帮我们做什么
欢迎点击收听
监制/徐涛
编审/东君
设计/Mori
排版、运营/六工
更多有趣问题
欢迎来声动活泼找答案
微信扫码关注该文公众号作者