Redian新闻
>
细节补充、声音对焦、原音翻译……还有什么 AI 不能做?

细节补充、声音对焦、原音翻译……还有什么 AI 不能做?

科技

上世纪 80 年代,刘晓光旷课去电影院里看了《星球大战》。电影结束后,他在原地鼓掌 10 分钟,激动地流下眼泪。那是他最早的人工智能启蒙。


1998年,刘晓光在工作中参与了自己第一个人工智能项目,做的是手写和云识别系统。


现在,刘晓光在高通公司负责产品、技术和生态合作,指导芯片设计也是他的一项重要工作。他所做的,仍然是帮助人工智能场景在现实中落地。如果聚焦到音频和语音场景上,AI 可以带来哪些颠覆性的变化?

声动活泼

最近高通的骁龙处理器和 QQ音乐开展了一项合作,这次合作可以给听众带来什么新的感受?

刘晓光

我们在生活里通过蓝牙传输音频,音质往往会有损失,但通过终端侧 AI 增强技术就可以把音乐受损的细节补充回来。


AI 很神奇的地方,就是可以通过深度学习知道如何更好地预测以及补充缺失信息。这一功能在摄影、摄像、音乐和游戏等领域均有应用,我们统称其为超级分辨率技术,也就是补充细节。相关研究早在 1955 年就有了,是关于光学成像的,当时第一次提出了超级分辨率的概念。不过早先算法效果不太好,现在随着技术进步,尤其是深度学习以及神经网络应用,效果有了很大飞跃。


QQ音乐就是利用了 AI 音乐增强技术,提升了压缩过的音乐音质。这一音质优化 AI 算法是在手机上运行的,我们和 QQ音乐合作后,相关算法全面迁移到高通 AI 引擎上运行,这样音频编解码和音频细节还原的处理速度更快,手机功耗也降低了。

声动活泼

除了可以补充音质损失,AI 还可以给我们的音频制作带来哪些帮助呢?

刘晓光

首先在录音时可以降噪。有时我们在户外录音,会有风声、人声等环境音,降噪功能就可以尽量去除这些噪音。还有的时候,对话的两个人离得比较远,旁边噪音比较大,我们就可以使用声音对焦功能,类似于摄影时的对焦。AI 算法可以让音频对焦和视觉对焦同步,把视觉焦点同时作为录音的焦点。这样即使离得比较远,也像追着说话对象录制一样。


同样, 我们也可以很方便地消除不需要的声音,比如咳嗽声、关门声等。你可以定义多种声音,让 AI 帮你识别出来,然后去除。


AI 还有改变声音的能力。比如我自身声音条件不太好,希望呈现出更好听的声音,AI 算法就可以帮你变声。以往也有一些变声软件,但传统算法生成的声音很不自然,现在 AI 的能力越来越强,声音也越来越逼真。


AI 也具备文本转语音的功能。原来听文字转语音生成的声音,几乎没有任何感情和语气,非常像机器人,但现在除非是专业人士,普通人已经很难辨别发声的是真人还是机器,AI 声音的声纹和真人的已经非常相似,而且能把语气和感情带出来。


另外,当你说完一段话,AI 已经可以帮你把大纲和重点摘要整理出来了。

声动活泼

我们最近还观察到一项厉害的 AI 技术,就是能把你的语音直接生成另外一种语言,并且仍然用的是你自己的声音。未来我们去其他国家旅游,是不是有可能对着手机说中文,直接转换成另一种语言播放呢?

刘晓光

实际上我们正在探索这项技术。这项技术需要 3 个基础。一个是语音识别,把原始音频识别成文字,然后利用翻译技术把识别出的文字翻译成目标语言文本,最后利用文本转语音的功能念出来。


这里有一个特别的能力,就是语音转文本功能可以学习你的语音的声纹,并利用这个声纹做渲染,这样最后发出的声音就和你的声音完全一样。


这样的技术其实我们已经在手机终端上实现了。2019 年我们就曾和 OPPO、有道合作实现了手机通话翻译功能。去年,我们还和小米合作了离线的 AI 字幕功能,也应用了类似技术。如果我们看一部外文的片子,可以在手机端实时翻译成我们想要的语言。

声动活泼

除了 AI,还有哪些技术能提高音质呢?

刘晓光

首先是把高品质的音频内容传递出来。通常我们所谓的无损音质的采样率是 16 比特 44 千赫兹,而我们可以支持的是 96 千赫兹。


其次就是缩短回传延时的时间。通常当回传延时超过 35 毫秒,我们就能感受到,比如看演唱会或玩游戏的时候如果声音和画面稍有差异,体验就非常不好。现在我们的技术可以把延时缩短到 20 毫秒,甚至更低。


三是动态头部追踪可以为空间音频创造更身临其境的体验。


还有一个功能是 Auracast 广播音频。这个功能我感受特别深。有时候在机场候机,我看到候机室里的电视节目挺有意思,但没有开声音。这时如果有了这项技术,戴上支持这项技术的蓝牙耳机,就可以听到声音了,同时也不会影响旁边休息的人。


这种场景还特别适合混合自适应降噪功能。比如我们有时戴着耳机听音乐,别人过来说话,我们就得把音乐关掉或调小,说完话再播放,有时甚至需要一直暂停,非常麻烦。混合自适应降噪功能就可以在识别到有人说话时,自动调低音乐音量,等说话结束,再把音量恢复

声动活泼

刚刚我们提到很多在端侧运行大模型的场景。高通的端侧大模型发展到了怎样的水平?

刘晓光

高通在 AI 领域已经耕耘了 15 年。刚开始,我们的参数在 1 亿以内,不过当时的效果就已经非常好了。目前高通已经实现了 10 亿到 15 亿参数模型在终端侧的部署。今年 2 月,高通展示了首个在安卓智能手机上运行的 Stable Diffusion(AI 图像生成工具),可以在 15 秒内完成 20 步推理,生成的图像质量也相当不错。


AI 在手机上其实有很大的用武之地,可以把你的手机真正变成你的个人助理。比如开会时,点的外卖到了,不好接电话,AI 就可以自动用语音告诉外卖员,现在不方便接听,能不能放到附近的快递柜,并且把柜号告诉我。AI 还可以在接听时做一些问询工作,比如你有什么事,我什么时间能回电,可以通过什么方式回复你,等等。


另外,我们要找之前的聊天记录,电话录音等,往往需要一条条去查。有了大模型,它就可以把你之前所有的信息做一个整理,要查询什么信息,可以非常快地帮你找到,并且总结出来。


AI 在机器人上也有一个很好的落地场景,就是服务型机器人或陪伴型机器人,这种机器人需要和人有很强的交互能力,大模型的理解能力和生成能力可以让它们的交流特别自然,甚至可以通过分析人的表情来识别情绪。

声动活泼

从你的亲身感受来说,移动 AI 加速计算这么多年来在应用场景和体验上,有没有哪些特别直观的提升和改变?

刘晓光

首先是算力和能效的提升。


其次是 AI 运算单元结构的进步。最早的神经网络都是在一个专有的神经网络处理器里,现在我们的异构运算已经可以把 AI 能力分布在我们处理器的各种单元上,一起协同工作,可以让手机的 AI 能力满足各种需求。


第三就是算法的进步。用户感受最大的就是拍照功能的进步。记得我第一个手机可能才 30 万像素,和网络摄像头差不多,现在手机拍照已经可以接近单反的水平。拍夜景的效果也非常好,甚至眼睛看不到的场景都可以很清晰地拍下来。AI 还可以用于相册的处理,比如现在手机里有很多照片,输入一个描述,就可以把需要的照片准确搜出来。


NLP(自然语言处理)也有非常大的进步。今天手机的语音识别和翻译能力已经非常强大了,离线翻译水平也已经非常接近云上水平。在游戏和视频上,也有非常多 AI 赋能的部分。我最近看到有视频公司开发了一个很有意思的功能,就是用户想看恐怖片,又害怕,这个功能就可以在恐怖场景出现的时候,调小音量,提高亮度,让人不那么害怕。

以上对话整理自

声动活泼旗下播客「科技早知道」

想知道 AI 还能帮我们做什么

欢迎点击收听



监制/徐涛

编审/东君

设计/Mori

排版、运营/六工

更多有趣问题

欢迎来声动活泼找答案

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“好声音没收钱”,《中国好声音》宣布停播之后,23年学员同一天发微博地缘风险持续,意外大反弹的黄金、原油后劲如何?和田玉镂空雕、珍藏级山水摆件、原矿南红手串等,火热竞拍中突发!印度军队向巴基斯坦开火!黄金、原油直线拉升国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用天津“掰掰”们火了!网友:会相声……还会跳水!狠货来了!华为25万轿车碾压特斯拉…还有全新平板“捅破天”矫正娃儿的牙齿要等换完牙才能做?老了是否容易掉牙?日本排放核污水,海鲜不能吃,日系美妆不能买,还有哪些东西我们不能碰?《思念成风》&《黑月光》赞爆!ChatGPT免费版开放语音对话功能!说中文也可以沟通!ChatGPT新增两种交互方式,加入语音对话和图像识别功能在B站上夜校,还有什么不能学的?预告|在新技术下的重新对焦:徐冰艺术研讨会遇事最高明的处理方式:面缓、声静、心安!芙蓉蛋PARTY:中国怎么会舍得让你们离开首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据OpenAI等推出AI语音翻译;百度发布首个量子领域大模型;微软或将用核电供能AI数据中心丨AIGC大事日报第四届“华为影像·金鸡手机电影计划”荣誉作品揭晓,对焦生活传递影像力量抢盐 瓦格纳的普二 中国那儿印象伦敦饮食和饭店的人质领导:你这PPT我也能做?我:那你做呀!毕导:清华直博、休学创业、3年后复学、博士毕业……还是应当做难而正确的事这个台灯设计太巧妙!还是当作无线充、手机支架、笔筒、手电用!【购票开启】R&B小王子sunkis宋秉勤邀你来看心动的声音总决赛 & 心动的声音十强信息公布2AMC、袋鼠、原版精读、国际单词...全场任选2件,历史最低价高铁30min!住进静谧的山水秘境,逛古镇、泡温泉、吃美食…还能观赏星空!超懂事的吹风机,风大、轻便、声音小!不伤发还护发,限时直降130元邀请月亮来庆中秋!农行信用卡做到了……还有超多中秋福利,速看!围观 ◇ BC省首个城市全面禁用天然气!再不能做地道中餐,再不能烧气取暖...谴责以色列、声援哈马斯,哈佛学生这次惹上麻烦了用的假身份!亚裔男女租客冒充房东把房子给卖了……还二次贷款中国驻美大使馆紧急提醒!突传利好,中国资产大反攻继续?黄金、原油突然飙涨,影响多大?[摄影] 松下第一台添加相位对焦的旗舰M43 G9M2,它来了国粹太极拳在大国政治上的娴熟应用!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。