百度贾磊：拼语音大模型，走另一条路丨AI·20人

财经

2023-09-25 15:09

他是百度技术首席架构师，是国内稀缺的语音大模型带头人。与此同时，围绕在他身上的另一组标签，是中国互联网行业首位“全国劳动模范”，在外界看来这是百度“狼性工作”的经典写照。

作者：任晓宁陶思羽

封图：图虫创意

贾磊身上的标签看起来似乎并不在一个次元。

贾磊在百度负责语音技术研发，他刚来百度时，语音技术在百度处于开拓期，那段时间，他“每天只要睁开眼睛就是工作，连走路坐车的时间都用来思考”，他一个人组建团队，写代码、建模、搭系统，6 个月后，百度上线了自主研发的语音搜索系统，这套系统也意味着中国的语音搜索技术实现突破，从无到有地跻身世界前列。

在国内AI语音领域，贾磊都是带头人，2023年他获得吴文俊人工智能科技进步奖特等奖。今年3月文心一言发布会上李彦宏展示的方言语音合成，以及文字生成视频中的语音生成能力，都由贾磊团队研发。

但最近他正在做一些更不一样的事情。

攻克难题

“旁白：掌柜的是一名老者，他正坐在柜前喝着酒。厅前还有个女孩擦拭桌椅，她见沈况进来，便礼貌的开口。

清脆女声：客人吃饭还是住店。

少年男声；住店。

旁白（伴随着轻柔音乐）：那女孩年岁不大，估摸着比沈况小了几岁。见沈况进来，老者微微的睁了开眼。

老年男子声音：哈哈，一把好剑！……”

贾磊向经济观察报记者展示了这段2分钟的声音，这是他带领的百度语音团队最新研究成果。这段合成声音，展示的是混杂各种背景音及4个人的声情并茂的对话声音的一个小说对话过程。这段语音对话背后，是对互联网音频大数据的识别、理解、分析和合成的综合应用。

语音大模型做好之后的效果大概是，你把一本小说喂给它，它能迅速生成电影质感音频，不需要任何人工操作。

当下无论国内还是国外，无论是ChatGPT还是百度，人们使用最多、体验最多的都是文生文、文生图大模型，很少听到语音大模型的进展。贾磊很坦然地承认，这一波AI技术新浪潮中，世界范围内看，AI语音大模型技术的确慢了一步，“是人家图文先实现了突破。”

不过对此，他觉得也正常，技术之路总是此消彼长，此起彼伏。在上一波由深度学习技术突破而带来的AI浪潮中，就是语音技术先做了突破，然后图文技术再跟上。

算上中科院自动化所博士学习的时间，贾磊在AI语音这条路上已经走了20年。看到当下大模型的进展，他很感慨：技术变化真的太快了。

2021年至今，各种深度学习模型技术交替登场，贾磊所在的语音领域，也曾经尝试使用自然语言处理的方法做预训练和语音大模型，但是这比大语言模型更难。语音大模型在实际使用中，一直解决不了快速实时的模型计算问题。

最近在NLP领域的大模型技术发展的牵引下，贾磊打开了思路，通过对语音大模型的模型结构和训练算法的创新，实现了语音在线服务中的模型体积增加几十倍的突破，他告诉经济观察报记者，这个创新在世界范围内十分领先。

技术改变中国人

采访贾磊是在一个夏天的午后，他从百度科技园的办公室匆匆走出来，会议室里聊了一个多小时后，他又匆匆赶回办公室，道别时他特意为这种匆忙解释：“我得回去工作了。”

做AI研发是一件枯燥又压力极大的事情，对此贾磊并不讳言。现在的他，每天时间都花在处理、调试模型，设计实验，看论文，写程序这些事情上。上班就是工作，下班回家就是睡觉，20年如一日，循环往复，他调侃自己：感觉人生就是同一种模式。

这种人生模式早在20年前，他在中科院读博时就已经预知，但他乐此不疲。

贾磊选择语音是兴趣驱动的。贾磊硕士毕业后，考入中科院自动化所攻读博士学学位。他最初的研发方向是图像处理，涉猎了模式识别各学科方方面面的知识，也综合比较了图像、语音和NLP等学科的学科差异等。之后他逐渐开始对语音技术产生兴趣。贾磊师从现任中科院自动化研究所所长徐波，做广播语音识别、广播语音翻译，把电视节目经过语音识别翻译成英语，由此踏上AI语音的20年之路。

现在回看，贾磊很感激中科院自动化所宽松的研究氛围，带他进入了一个美丽新世界，这个世界竞争激烈但又成就感满满，“有些东西别人都没做出来，你做出来了，而且确实很有用，这种快乐其实是能超越很多事情的。”贾磊说。

更让他感到快乐的，是他研发的技术改变了很多中国人的生活。这也是他放弃国外高薪，选择回到国内的原因。贾磊在国外待过一段时间，他那时觉得，当地并没有“做出一个东西让大家都能用起来的氛围。”国内则不同，尤其是近5年，AI落地速度明显加快，他看到身边亲朋好友使用小度音箱对话，看到很多人用语音输入文字、检索信息，看到司机用自己喜欢的声音做地图导航……

或许使用技术的人感知并不明显，但作为研发一线，从无到有实现技术突破的人，贾磊觉得，他的内心成就感比做其他行业要大很多，这不是金钱可以获取的，这种成就感也是驱动他一直去从事AI工作最重要的原因。

讲到这里时，他的语速明显快了很多，虽然作为技术圈外人，很难准确理解技术成就感的冲击力有多大，但你很容易被他感染，这是一种单纯的技术人员看到技术进展后的快乐。现在已经成为AI大拿的贾磊，仍保留技术人员的特色，简单、纯粹，用他的话说，“20年前吃什么、穿什么，现在还吃什么、穿什么”。

大模型的出现，让贾磊的AI语音技术，得以加速发展和落地。他希望有朝一日，能够实现人对着计算机说话，像跟人说话一样自如。

他正在为此努力。

（贾磊受访者供图）

【对话】

语音大模型下一步

经济观察报：百度是国内首个推出大语言模型的互联网大公司，您在其中做了什么？

贾磊：百度十几年前就开始进行AI研究了，文心一言是我们多年技术积累和应用实践的结果。文心大模型是一个体系，有很多成员，包括NLP大模型、语音大模型、图像大模型、跨模态大模型、生物计算大模型等。语音相关的有语音识别大模型、语音合成大模型。我主要是负责语音大模型的一些研究和探索。

经济观察报：之前大家熟悉的人工智能应用更多是在智能音箱产品，但为什么取得突破的是图文而不是语音？

贾磊：作为人类智化的几个标志能力，语音、语言、视觉图像能力都属于基本的人工智能范畴，图像跟语言都有大模型了，但语音大模型一直是难产的状态，它有一定的技术障碍。我们当前的识别只能基于此时此刻的一句语音，没有办法利用提示，也没有办法利用上下文。

语音会有一个时间过程，比如随着你说话，时间是在往后延续的。并且，你说话结束，语音识别结果立刻就要给出来。所以语音大模型的特点是，要瞬时地去做反馈，并且语音分帧计算使得语音模型加载量比图像和语言大很多，这就使得计算机加载模型的压力很大。

打个比方，大家现在开车去上班，如果你到了五环路，路很宽，就可以跑的很好。但是上到五环之前，大家从各个小区走出来的这些路很堵，导致你的车根本跑不到五环上去。现在语音大模型就卡在跑去五环的路上了。

比如说3秒钟的语音，语音模型加载到CPU进行计算的理论次数是300次，而对应这3秒语音的一张图或者一句话的深度学习计算，只需要做1次模型加载。而且语音大模型加进去之后，完成计算的时间必须很快，否则造成用户的过长等待和延迟。通常语音交互系统需要在0.4秒以内有反馈，否则用户就会觉得这个设备反应速度很慢，不愿意和设备进行语音交互。这是语音大模型难产的核心原因。

经济观察报：未来是否有解决方案？

贾磊：计算机模型加载的限制问题，从硬件上看无法从根本上解决，除非是物理世界发生了重大的突破。举一个例子，解决计算机的模型加载问题，类似于超导技术的突破，只有超导技术突破了，传输介质电阻很小或者近似为0，高压传输才能做到无损。但在算法上，我们提出了一个特殊的模型结构，在smlta2模型的基础上，把模型的循环加载变成一次性加载，训练时候该算法不假设任何先验，可以完全端到端训练，最终使得在满足在线语音服务延迟要求的前提下，语音语音大模型的参数量，比原先增加了几十倍，极大的提升了语音识别系统的准确率和鲁棒性。

大语言模型体现智能的一个重要表现，是当模型体积增加到一定规模后，涌现出很多原始训练集合中没有的新能力。语音大模型的智能化更多表现为多领域口语信息的准确识别能力、多口音的辨识能力。比如一个小区的名字，我说新兴家园你知道是哪两个字吗？这种同音字如果没有提示，你是无法知道是“新兴”还是“欣星”。如果有语音大模型，这种歧义的、似是而非的信息都可以通过一个人的历史轨迹得到提示。

我们这个模型结构，可能会改变语音领域的研究方向和研究方式,在语音大模型这个领域是领先的。

痛并快乐着

经济观察报：您在AI行业从业20年，您怎样评价这一波人工智能浪潮？它是跟之前几波浪潮会完全不一样吗？

贾磊：之前的AI是站在一个“我服务大家”的角度，未来AI可能站在“我服务你”的角度来做，我觉得这次还是非常令人兴奋的。

经济观察报：在您看来，做AI是一种什么样的体验？会觉得有压力或者很枯燥吗？

贾磊：首先是竞争带来压力。因为AI领域是各个国家投入很大的领域，所以竞争十分激烈。但如果你能做的比别人更好，你能得到更多的快乐。

其次是广泛应用带来的成就感。AI正在越来越多的落地，也有大量产品出现在每个人生活中，看到这些进展我内心的成就感，比做其他的行业要大得多，这不是金钱可以获取的，这种成就感是驱动我一直从事AI行业最重要原因。

做技术研究，枯燥是难以避免的，因为处理、调试模型，模型跑出来后设计实验，这个周期很长，要根据中间的反馈做预判，做方案选择，非常难。做这个事，说到底已经是生活的一部分，也已经习惯了。

经济观察报：您之前说过，要探求语音交互认知的本源。现在看，这个本源是什么？

贾磊：其实我一直在想，为什么语音识别率不高？为什么人们不想使用语音？人为什么见一个人喜欢先说话而不是用文字表达？这背后内在的逻辑是什么？如果我做语音技术，我希望这个技术无处不在，那我该怎么样做？单单一句话无法理解，它有上下文才行，怎么样引入上下文？这些东西随着我做语音技术的深入之后，我想的越来越多。我终极的梦想就是人们对着计算机说话，像对着人说话一样自如，人和计算机说话获得的信息量、获得的满足感，与和人说话也能一样。语音解决的是交流的问题，NLP解决的是思考的问题，图像解决的是视觉问题，机器人动起来，解决的是肢体支撑力的问题，等到这些问题都解决了，通用人工智能有可能就实现了。从事这个领域，我所做的一切，都是为了这一天的到来。

王石：市场都有周期，就看最后的坚持

PPP暂停后，项目如何善后？

弱市下的狂飙，揭秘ETF生态

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章