Redian新闻
>
百度贾磊:拼语音大模型,走另一条路丨AI·20人

百度贾磊:拼语音大模型,走另一条路丨AI·20人

财经
他是百度技术首席架构师,是国内稀缺的语音大模型带头人。与此同时,围绕在他身上的另一组标签,是中国互联网行业首位“全国劳动模范”,在外界看来这是百度“狼性工作”的经典写照。
作者:任晓宁 陶思羽
封图:图虫创意






贾磊身上的标签看起来似乎并不在一个次元。


他是百度技术首席架构师,是国内稀缺的语音大模型带头人。与此同时,围绕在他身上的另一组标签,是中国互联网行业首位“全国劳动模范”,在外界看来这是百度“狼性工作”的经典写照。


贾磊在百度负责语音技术研发,他刚来百度时,语音技术在百度处于开拓期,那段时间,他“每天只要睁开眼睛就是工作,连走路坐车的时间都用来思考”,他一个人组建团队,写代码、建模、搭系统,6 个月后,百度上线了自主研发的语音搜索系统,这套系统也意味着中国的语音搜索技术实现突破,从无到有地跻身世界前列。


在国内AI语音领域,贾磊都是带头人,2023年他获得吴文俊人工智能科技进步奖特等奖。今年3月文心一言发布会上李彦宏展示的方言语音合成,以及文字生成视频中的语音生成能力,都由贾磊团队研发。


但最近他正在做一些更不一样的事情。




攻克难题


“旁白:掌柜的是一名老者,他正坐在柜前喝着酒。厅前还有个女孩擦拭桌椅,她见沈况进来,便礼貌的开口。


清脆女声:客人吃饭还是住店。


少年男声;住店。


旁白(伴随着轻柔音乐):那女孩年岁不大,估摸着比沈况小了几岁。见沈况进来,老者微微的睁了开眼。


老年男子声音:哈哈,一把好剑!……”


贾磊向经济观察报记者展示了这段2分钟的声音,这是他带领的百度语音团队最新研究成果。这段合成声音,展示的是混杂各种背景音及4个人的声情并茂的对话声音的一个小说对话过程。这段语音对话背后,是对互联网音频大数据的识别、理解、分析和合成的综合应用。


语音大模型做好之后的效果大概是,你把一本小说喂给它,它能迅速生成电影质感音频,不需要任何人工操作。


当下无论国内还是国外,无论是ChatGPT还是百度,人们使用最多、体验最多的都是文生文、文生图大模型,很少听到语音大模型的进展。贾磊很坦然地承认,这一波AI技术新浪潮中,世界范围内看,AI语音大模型技术的确慢了一步,“是人家图文先实现了突破。”


不过对此,他觉得也正常,技术之路总是此消彼长,此起彼伏。在上一波由深度学习技术突破而带来的AI浪潮中,就是语音技术先做了突破,然后图文技术再跟上。


算上中科院自动化所博士学习的时间,贾磊在AI语音这条路上已经走了20年。看到当下大模型的进展,他很感慨:技术变化真的太快了。


2021年至今,各种深度学习模型技术交替登场,贾磊所在的语音领域,也曾经尝试使用自然语言处理的方法做预训练和语音大模型,但是这比大语言模型更难。语音大模型在实际使用中,一直解决不了快速实时的模型计算问题。


最近在NLP领域的大模型技术发展的牵引下,贾磊打开了思路,通过对语音大模型的模型结构和训练算法的创新,实现了语音在线服务中的模型体积增加几十倍的突破,他告诉经济观察报记者,这个创新在世界范围内十分领先。




技术改变中国人

采访贾磊是在一个夏天的午后,他从百度科技园的办公室匆匆走出来,会议室里聊了一个多小时后,他又匆匆赶回办公室,道别时他特意为这种匆忙解释:“我得回去工作了。”


做AI研发是一件枯燥又压力极大的事情,对此贾磊并不讳言。现在的他,每天时间都花在处理、调试模型,设计实验,看论文,写程序这些事情上。上班就是工作,下班回家就是睡觉,20年如一日,循环往复,他调侃自己:感觉人生就是同一种模式。


这种人生模式早在20年前,他在中科院读博时就已经预知,但他乐此不疲。


贾磊选择语音是兴趣驱动的。贾磊硕士毕业后,考入中科院自动化所攻读博士学学位。他最初的研发方向是图像处理,涉猎了模式识别各学科方方面面的知识,也综合比较了图像、语音和NLP等学科的学科差异等。之后他逐渐开始对语音技术产生兴趣。贾磊师从现任中科院自动化研究所所长徐波,做广播语音识别、广播语音翻译,把电视节目经过语音识别翻译成英语,由此踏上AI语音的20年之路。


现在回看,贾磊很感激中科院自动化所宽松的研究氛围,带他进入了一个美丽新世界,这个世界竞争激烈但又成就感满满,“有些东西别人都没做出来,你做出来了,而且确实很有用,这种快乐其实是能超越很多事情的。”贾磊说。


更让他感到快乐的,是他研发的技术改变了很多中国人的生活。这也是他放弃国外高薪,选择回到国内的原因。贾磊在国外待过一段时间,他那时觉得,当地并没有“做出一个东西让大家都能用起来的氛围。”国内则不同,尤其是近5年,AI落地速度明显加快,他看到身边亲朋好友使用小度音箱对话,看到很多人用语音输入文字、检索信息,看到司机用自己喜欢的声音做地图导航……


或许使用技术的人感知并不明显,但作为研发一线,从无到有实现技术突破的人,贾磊觉得,他的内心成就感比做其他行业要大很多,这不是金钱可以获取的,这种成就感也是驱动他一直去从事AI工作最重要的原因。


讲到这里时,他的语速明显快了很多,虽然作为技术圈外人,很难准确理解技术成就感的冲击力有多大,但你很容易被他感染,这是一种单纯的技术人员看到技术进展后的快乐。现在已经成为AI大拿的贾磊,仍保留技术人员的特色,简单、纯粹,用他的话说,“20年前吃什么、穿什么,现在还吃什么、穿什么”。


大模型的出现,让贾磊的AI语音技术,得以加速发展和落地。他希望有朝一日,能够实现人对着计算机说话,像跟人说话一样自如。


他正在为此努力。


(贾磊  受访者供图)


【对话】


语音大模型下一步


经济观察报:百度是国内首个推出大语言模型的互联网大公司,您在其中做了什么?


贾磊:百度十几年前就开始进行AI研究了,文心一言是我们多年技术积累和应用实践的结果。文心大模型是一个体系,有很多成员,包括NLP大模型、语音大模型、图像大模型、跨模态大模型、生物计算大模型等。语音相关的有语音识别大模型、语音合成大模型。我主要是负责语音大模型的一些研究和探索。


经济观察报:之前大家熟悉的人工智能应用更多是在智能音箱产品,但为什么取得突破的是图文而不是语音?


贾磊:作为人类智化的几个标志能力,语音、语言、视觉图像能力都属于基本的人工智能范畴,图像跟语言都有大模型了,但语音大模型一直是难产的状态,它有一定的技术障碍。我们当前的识别只能基于此时此刻的一句语音,没有办法利用提示,也没有办法利用上下文。


语音会有一个时间过程,比如随着你说话,时间是在往后延续的。并且,你说话结束,语音识别结果立刻就要给出来。所以语音大模型的特点是,要瞬时地去做反馈,并且语音分帧计算使得语音模型加载量比图像和语言大很多,这就使得计算机加载模型的压力很大。


打个比方,大家现在开车去上班,如果你到了五环路,路很宽,就可以跑的很好。但是上到五环之前,大家从各个小区走出来的这些路很堵,导致你的车根本跑不到五环上去。现在语音大模型就卡在跑去五环的路上了。


比如说3秒钟的语音,语音模型加载到CPU进行计算的理论次数是300次,而对应这3秒语音的一张图或者一句话的深度学习计算,只需要做1次模型加载。而且语音大模型加进去之后,完成计算的时间必须很快,否则造成用户的过长等待和延迟。通常语音交互系统需要在0.4秒以内有反馈,否则用户就会觉得这个设备反应速度很慢,不愿意和设备进行语音交互。这是语音大模型难产的核心原因。


经济观察报:未来是否有解决方案?


贾磊:计算机模型加载的限制问题,从硬件上看无法从根本上解决,除非是物理世界发生了重大的突破。举一个例子,解决计算机的模型加载问题,类似于超导技术的突破,只有超导技术突破了,传输介质电阻很小或者近似为0,高压传输才能做到无损。但在算法上,我们提出了一个特殊的模型结构,在smlta2模型的基础上,把模型的循环加载变成一次性加载,训练时候该算法不假设任何先验,可以完全端到端训练,最终使得在满足在线语音服务延迟要求的前提下,语音语音大模型的参数量,比原先增加了几十倍,极大的提升了语音识别系统的准确率和鲁棒性。


大语言模型体现智能的一个重要表现,是当模型体积增加到一定规模后,涌现出很多原始训练集合中没有的新能力。语音大模型的智能化更多表现为多领域口语信息的准确识别能力、多口音的辨识能力。比如一个小区的名字,我说新兴家园你知道是哪两个字吗?这种同音字如果没有提示,你是无法知道是“新兴”还是“欣星”。如果有语音大模型,这种歧义的、似是而非的信息都可以通过一个人的历史轨迹得到提示。


我们这个模型结构,可能会改变语音领域的研究方向和研究方式,在语音大模型这个领域是领先的。




痛并快乐着


经济观察报:您在AI行业从业20年,您怎样评价这一波人工智能浪潮?它是跟之前几波浪潮会完全不一样吗?


贾磊:之前的AI是站在一个“我服务大家”的角度,未来AI可能站在“我服务你”的角度来做,我觉得这次还是非常令人兴奋的。


经济观察报:在您看来,做AI是一种什么样的体验?会觉得有压力或者很枯燥吗?


贾磊:首先是竞争带来压力。因为AI领域是各个国家投入很大的领域,所以竞争十分激烈。但如果你能做的比别人更好,你能得到更多的快乐。


其次是广泛应用带来的成就感。AI正在越来越多的落地,也有大量产品出现在每个人生活中,看到这些进展我内心的成就感,比做其他的行业要大得多,这不是金钱可以获取的,这种成就感是驱动我一直从事AI行业最重要原因。


做技术研究,枯燥是难以避免的,因为处理、调试模型,模型跑出来后设计实验,这个周期很长,要根据中间的反馈做预判,做方案选择,非常难。做这个事,说到底已经是生活的一部分,也已经习惯了。


经济观察报:您之前说过,要探求语音交互认知的本源。现在看,这个本源是什么?


贾磊:其实我一直在想,为什么语音识别率不高?为什么人们不想使用语音?人为什么见一个人喜欢先说话而不是用文字表达?这背后内在的逻辑是什么?如果我做语音技术,我希望这个技术无处不在,那我该怎么样做?单单一句话无法理解,它有上下文才行,怎么样引入上下文?这些东西随着我做语音技术的深入之后,我想的越来越多。我终极的梦想就是人们对着计算机说话,像对着人说话一样自如,人和计算机说话获得的信息量、获得的满足感,与和人说话也能一样。语音解决的是交流的问题,NLP解决的是思考的问题,图像解决的是视觉问题,机器人动起来,解决的是肢体支撑力的问题,等到这些问题都解决了,通用人工智能有可能就实现了。从事这个领域,我所做的一切,都是为了这一天的到来。



王石:市场都有周期,就看最后的坚持
PPP暂停后,项目如何善后?
弱市下的狂飙,揭秘ETF生态

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
邓小平谈改革开放:中国这个时候不搞改革开放发展经济,走任何一条路都是死路免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!百度云MaaS升级:接入国内外33个大模型,进行二次性能增强|甲子光年这些年这些人这些事—回国散记之卷与润地中海邮轮之旅(12): Pisa比萨 (未完成,照片更新中)免费《大模型应用实践》实训营第二周课程来啦!这次百度算法工程师团队手把手教你构建大模型应用,另有第一周干货回顾!​晚点财经|集成大模型,或者被大模型集成;10 月中国进口额恢复增长引入33个大模型,百度智能云千帆大模型平台的“破茧时刻”大外宣工作纲要之二百度云上交大模型成绩单:接入42个大模型,月活企业近万家|甲子光年朱啸虎:不要追逐大模型,要跟着大模型进化传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报华为率先把大模型接入手机!小艺+大模型,智慧助手智商+++小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大OpenAI等推出AI语音翻译;百度发布首个量子领域大模型;微软或将用核电供能AI数据中心丨AIGC大事日报手机大模型爆发:vivo 发布自研蓝心大模型,参数追赶 GPT-3我们为最“in”大模型,找到了另外一条解题思路谷歌语音人工智能 AudioPaLM,语音传输瞬间翻译宾州詹金斯植物园(Jenkins Arboretum),自由绽放AI公司第四范式IPO上市;雷军王小川联手搞小米大模型;百度发布量子领域大模型;AI新技术90秒识别癌;苹果疯狂购买AI初创公司对话百度肖阳:生成式大模型,搜索最重要的一块拼图接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级小冰李笛:大模型你冷静一下丨AI·20人系列报道百度智能云:千帆大模型平台接入Llama2等33个模型,推理成本可降低50%李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型上海交大梁晓峣:疯狂的大模型时代,开源GPGPU平台为国产AI芯片企业谋出路丨GACS 2023莲花,蒸蒸日上IEEE Fellow 张磊:普及大模型,手机端的创新很关键百度智能云千帆官方出品,大模型免费实战教学,百度算法工程师从0-1教你搭建AI原生应用真格 x 百度智能云千帆大模型,AI 黑客松又来了|Z Events北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中百度发布首个量子领域大模型,5分钟内可完成上万字专利文档中俄为核废水排放指了另一条路,日方根本不敢做,或是怕得罪美国【动脉严选新品鉴第37期】百度灵医大模型:国内首个产业级医疗大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。