院长专访|讯飞刘聪:AI Lab界的「常青树」是怎样炼成的?
新智元报道
新智元报道
编辑:好困 David
【新智元导读】一转就是十七年,这台「创新发动机」,从来没停过!
安徽合肥的大蜀山脚下,一群研发人员正在紧张有序的工作着。
在各个办公区的中间,张贴着年轻同学们的技术海报、各个方向的研究路径。
还有一块写满了各种公式的白板,上面「用正确的方法,做有用的研究」这几个字面积不大却引人注目。
在18岁成人礼前夕,新智元对中国科学技术大学博士,科大讯飞研究院执行院长刘聪进行了一次专访。
刘聪博士是语音及语言信息处理国家工程研究中心副主任,科技创新2030「新一代人工智能」重大项目负责人,CCF CTO Club创始成员。
他领导了科大讯飞公司人工智能技术的前瞻布局、技术创新和产业落地等工作,建立超1500人的AI科研团队,带领团队取得多项关键技术突破,多次获得CHiME、OpenASR、IWSLT、Commonsense QA等国际人工智能技术权威评测冠军。
此外,刘聪博士还主持了多项国家和省部级重大科研项目,荣获北京市和安徽省科技进步一等奖、MIT TR35 China「先锋者」、CCF杰出工程师等荣誉。
从863计划到AI国家队
时间回到上世纪90年代末,在国家863计划的支持下,神舟飞船、蛟龙号潜水器、天河一号及天河二号超级计算机等科研成果如雨后春笋一般。
1998年,还在读博的刘庆峰率领着中科大的团队成功在语音合成评测中夺冠,并被专家组一致认定为初步达到实用化水平。
要知道,当时最先进的语音技术完全被Nuance等国际巨头垄断,而专家的认可就像甘露一般,给团队带来了极大的信心。
于是,一股「中文语音技术要由中国人做到全世界最好」的家国情怀和豪情壮志油然而生。
再加上「用黑科技产品改变世界」的理工男式理想和浪漫,刘庆峰和其他5名中科大在校学生在经过一年的准备之后,与12名联合创始人在1999年成立了科大讯飞。
为了进一步巩固讯飞刻骨子里的「核心技术创新」基因,2005讯飞研究院成立。
刚刚成立的研究院,成员还不到10个(包含现在大家都很熟悉的吴晓如、胡郁、胡国平、魏思等),首任院长是王仁华老师。
不久后,意气风发的胡郁正式接棒研究院院长,带领研究院系统性梳理了未来的规划和发展路径,并提出了至今仍在研究院口口相传的院训——「用正确的方法,做有用的研究」。
万万没想到的是,仅仅成立不到一年的团队就一举拿下了2006年Blizzard Challenge语音合成国际评测的第一名。
而由魏思主导的语音评测技术及系统,也首次通过了国家语委的认证。
2008年,科大讯飞作为国内首家由在校大学生创业的公司成功上市。
同年,科大讯飞首次让语音合成得到的效果超过了普通人说话的水平。
2010年10月28日,刘聪等人潜心研究了三年的「讯飞语音云平台」在科大讯飞首场大型发布会上正式亮相,而这也意味着世界上第一个中文语音输入法诞生了。
此时还没人想到,语音输入有朝一日会成为所有输入法的标配。
时隔不到2年,科大讯飞在2012年初发布了基于深度神经网络的中文语音识别系统,成为业界首家将深度学习中文语音识别系统正式大规模上线应用的公司。
2016年,以AlphaGo为代表的现象级AI系统出现,「算法算力大数据」、「从感知智能到认知智能」、「AI应用要找到场景、才能实现价值落地」等也成为了产业界的热门词汇。
接下来的事情大家应该都很熟悉了:深度学习技术在多个人工智能的技术领域快速发展和延伸,层出不穷的模型结构和相关算法被提出。
这些AI技术的快速进步、结合大量数据和算力的升级迭代,也将不少原本停留在演示阶段的AI能力在实际场景中的效果快速提升并实用化。
2017年,科大讯飞智医助理机器人首次通过国家执业医师资格考试,综合笔试测试超过96.3%的人类考生。
2018年,机器翻译中英语音翻译首次达到CATTI全国翻译专业资格(水平)考试二级合格标准。
2019年,机器阅读理解SQuAD2.0机器阅读理解权威测评全球首次超过人类平均水平。
2020年,科大讯飞因材施教夺得NeurIPS教育挑战赛多项任务冠军。
2021年,发布了业界首个AI虚拟人交互平台。并获得吴文俊人工智能科技进步奖一等奖。
凭借着在深度学习、AI等技术领域的先发优势,讯飞的语音识别技术一直走在世界的前列。
这17年,研究院是怎么走的?
说到AI Lab,每个研究院结合所在公司的战略都会有自己的定位和特色,例如有的注重学术论文、有的注重前瞻孵化、有的注重业务支撑。
讯飞来则是将所有AI研发的力量都是集中在研究院,而不是让每个业务线「养」一个自己AI团队。
尤其是过去这十几年,人工智能技术领域和产业领域的变化和节奏都非常快。
10年前,可能提出一套新的模型,比如从DNN到RNN的升级,就能鹤立鸡群了,但是现在技术同质化的现象其实越来越明显。
就拿科大讯飞研究院来说吧,在早期的深度学习时代,做系统的节奏一般是今年上线一个大版本,前瞻预研一个大版本、然后明年再实现对应的工程化上线。
而现在就必须用「研究工程一体化」的方式做研发,一年需要快速迭代上线N个版本,只有这样才能在某些领域持续保持领先。
说到这里,其实还有一件趣事。就是当刘聪还在学生阶段写论文时,感觉自己一年想出几个算法、实现并叠加在一起获得10%的相对提升已经很不错了。
结果入职之后一听,胡国平院长的要求是每年30%的相对提升,当时直接就「裂开」了。
言归正传,其实看到过那么多产学研分离的例子,就会知道,要做到这一点并不容易。
讯飞研究院也是经历了一系列的「摸爬滚打」,才在技术创新、产业落地、产学研合作等方面积累了相当的经验,并总结出了「国内唯一」的模式。
刘聪认为可以归为两个底层的逻辑:源于行业、拓于算法。
首先,研究方向的拓展是行业发展的必然趋势。
从行业落地的经验来看,一般先是用某个单点技术切入行业,带来价值后行业会需要更全面、更深入业务主流程的方案,从而反推对技术更多的需求。
例如,讯飞刚开始在教育方向只是做针对口语的语音评测技术,但是后来和主管部门及客户深入沟通后发现,如果能实现对全部学科的纸质试卷和作业进行自动扫描、评阅、批改、个性化推荐等能力,就能带来更大的价值。
那么,这里就又涉及到图文识别、智能批改等计算机视觉和自然语言理解领域的技术。
其次,因为有了深度学习框架,各个技术方向之间的差异其实变小了,因此在一些基础算法上进步(例如端到端框架、半监督训练等)就可以有效迁移至其他的技术方向。
同样的,某个方向通用技术的进步(例如16年提出的DFCNN语音识别框架)可以结合一些面向定制化需求的工具和数据,形成对多个不同行业场景的支持。
对此,刘聪曾在2020年的1024大会上提出,讯飞AI科技树的特点就是以基础算法为主干,以技术体系为生长方向,以场景理解为发展动力。
而在这样的策略引导下,讯飞在业务上形成了「平台+赛道」的组合模式。基于业务发展和研究方向布局,又构建了「研究+工程+平台+资源」的研发体系。
以终为始,科大讯飞研究院从2005年成立至今,一直秉承着最初「用正确的方法,做有用的研究」的院训;持续追求用代差级的技术优势,解决行业中的刚需问题,实现正向循环迭代。
2021年,讯飞研究院被DeepTech评选为「中国2021年人工智能创新研究院」之一,其中的上榜理由正是 「以系统性创新,解决社会刚需」。
不一样的团队
作为国内AI领军企业的核心技术研发机构,人才的重要性对于讯飞研究院而言自然是重中之重。
人才(尤其是高级人才)从哪里来?对于人工智能行业而言,离不开企业、学校和研究机构。
也就是现在常说的「产学研」了。
这其实应该算是科大讯飞的天然优势之一。
可以说,中国科学技术大学无论是作为学术资源库,还是高级人才基地,都为科大讯飞的发展壮大提供了最适宜的土壤。
而中科大的背后是整个中国科学研究的最高机构——中国科学院。用刘聪的话讲,科大讯飞在产学研合作上做得一直不错。
从最初和中科大、中国科学院语言研究所等优势机构的合作,到后续随着技术方向拓展,又与清华大学、哈尔滨工业大学、中科院其他研究机构和专家进行了合作,成果显著。
此外,这种联合培养的形式,也让很多学生在读研究生期间就能提前进入公司,了解前沿产业的需求。
在进一步的研究中,还会有不少学生会选择留下来继续钻研技术的落地。
实际上,科大讯飞的早期员工,有不少就是直接从高校走出来的。
过去如此,现在仍是如此。
现任科大讯飞AI研究院的副院长刘权,就是中科大博士出身,今年年仅31岁。
他另一个职务是认知智能国家重点实验室人机交互研究室主任。目前正带领着一个近70人的年轻团队,不断刷新人们对人工智能的想象。
刘权的研究领域是NLP,也是科大讯飞赖以起家的王牌,从语音识别、语音合成,再到智能转写、智能认知,这些业务模块都离不开NLP领域的突破。
但在十年前, NLP在国际上还处于起步阶段。刘权在读博期间剑走偏锋,坚持选择NLP作为研究领域。
「起初就是单纯热爱,一种初生牛犊不怕虎的心气劲儿」。读博的经历为他日后从事认知智能核心技术研究打下了坚实的基础,也让他明白,科技创新没有捷径。
2016年,他研发的AI系统在国际常识推理评测大赛中获得第一名。
2017年,26岁的刘权博士毕业正式加入科大讯飞,成为国家首个认知智能国家重点实验室的核心成员,主攻方向正是NLP。
2019年下半年,科大讯飞成立「技术攻坚团队」,刘权和团队承担起认知智能领域攻关的重任,他的团队平均年龄只有26岁。
在经历了数不清的不眠之夜,克服了无数困难后,这个年轻的团队在意图理解、命名实体识别等关键技术上取得了突破,最终设计出一套完整有效的多语种语音交互技术方案。
从2020年至2021年,刘权带领团队一举获得自然语言处理领域5个国际权威评测冠军。
2022年4月,团队提出的融合多源知识的深度学习常识推理方法在国际权威机器常识推理评测中,以76%准确率的绝对优势取得第一,刷新了机器常识推理水平世界纪录。
路漫漫,同求索。以时不我待的干劲去干「顶天立地」的事,正是年轻人该有的姿态。
除了对学术界、研究机构「求贤若渴」之外,讯飞自身的高级人才培养体系的建设和完善,同样是这家AI领军企业能够坚挺20余年的关键所在。
在这一点上,讯飞研究院确实有自己的独到之处。
首先是「搭班子」共创。在上述一些框架或思路制定的过程中,一般不会由某一个人自上向下的宣贯,而更喜欢用「共创」的方式,先对战略和周期目标充分理解形成大的导向,再充分讨论形成碰撞,最终由权威决策。
第二,多样化发展。既然是企业,个人英雄主义的角色当然是少不了的,比如研究院的首席科学家魏思同学,为了更好地发挥他的作用,会尽量降低他的「常规性损耗」,让他的个人英雄主义可以成为捅破天的那根针。
第三,让年轻人放手去干。研究院建立了特殊的机制,给予年轻人中的佼佼者更多出彩的机会和精心设计的成长路径。例如对于一些优秀的博士,只要敢于挑战,完全可以带领小团队直接负责项目。
孕育于知名高校的科大讯飞,当然也不会放过每年的校园招聘。
实际上,刘聪本人过去有好几年就直接负责讯飞研究院的校园招聘,每年至少都会跟上百个同学直接交流。
对于AI企业,对校园招聘的几点共同的要求大家都不陌生了。比如学好数学、热爱计算机、专业学科功底扎实、外加一些锦上添花的论文、项目经验等等。
另外,刘聪表示,讯飞研究院的校园招聘,会关注一些除了学科背景之外的特质。
比如有追求、有好奇心,温暖从容,积极协作。
如果你是一个有趣的人,就更好了。不怕你爱玩,要的就是用玩游戏的心态搞研究,什么段子手、社交牛逼症患者,那更是来多少都不嫌多。
怎么样,要不要来讯飞研究院试试?
PS. 讯飞研究院借着迎接18周年之际,开设了自己的公众号。据说,还会有更多的故事分享出来哦~
微信扫码关注该文公众号作者