深耕垂直领域 助力全球研发中心城市建设——访湖南省马栏山计算媒体研究院院长高春鸣科技2023-09-17 03:09图为高仿真虚拟数字人自动化生产流程高春鸣曾是湖南大学信息科学与工程学院的教授。多年来,他与湖南大学60余名师生共同参与研发计算媒体SaaS(软件即服务)系统。从大学退休后,高春鸣牵头将这项技术成果在马栏山视频文创产业园进行产业化落地。2019年年底,马栏山计算媒体研究院成立,高春鸣任院长。在他的带领下,旨在推进视频自动化生产的计算媒体SaaS服务平台全面构筑,持续为影视、动漫、教育等数字企业的人工智能化发展赋能。目前,马栏山计算媒体研究院已联合中国科学院自动化所、湖南大学、中南大学、北京理工大学、华为等多家高校和企业,在多模态预计算大模型、语言智能、3D计算建模、计算动画等领域开展研究,并承担了湖南省多个科技创新重点工程项目。当前,年过六旬的高春鸣依然神采奕奕地为中国视频计算产业的高质量发展发光发热。2023年8月18日,记者一行走访马栏山计算媒体研究院(以下简称“研究院”),就时下热门话题,同时也是该研究院主要研发方向的生成式人工智能(AIGC)、虚拟数字人等话题,与高春鸣展开深入交流。虚拟数字人更具真实感从呈现方式划分,虚拟数字人可分为卡通型和写实型两大类,相比前者,后者在企业级层面拥有更广泛的落地空间,也代表着虚拟数字人当前的主流发展方向。研究院构筑起的计算媒体SaaS服务平台,其核心技术优势在于打造虚拟数字人的真实感。以网络结构设计、自监督学习和模型轻量化技术研究为切入点,研究院建立了国内首个融合文字、视觉、语音、3D媒体于一体的多模态预训练大模型,通过研究3D人脸检测、纹理映射配准与融合,打造出拥有动作、手势、表情、皮肤纹路、牙齿等仿真外观的真实感虚拟数字人。高春鸣向记者介绍,一个优秀的虚拟数字人不仅要外形美观,还要有丰富自然的脸部表情,并且要尽量实现手势、行走、口唇变化自然,还需要发声驱动等技术加持,这些需要较长的计算流程。研究院的服务平台可以完成虚拟数字人的快速建模,且可以达到准实时的水平。建模完成后,虚拟数字人还需要拥有语言功能,需要通过词法、语法、语义、对话、聊天等环节实现语言交互层面的智能化,这很考验计算媒体SaaS服务平台的自然语言处理能力。如今,计算媒体SaaS服务平台已经具备虚拟数字人从建模到生成所需的完整自动计算的能力。从实体人到虚拟数字人,需要强大的计算力作支撑;还需要另辟蹊径,在技术方法上进行创新。高春鸣表示,计算媒体SaaS服务平台将需要几个月时间完成的大模型计算,经过压缩和重新编译优化,对算法进行“减重”,再嵌入计算流程中,这样的做法大大减少了计算时间。“在核心技术方面获得突破后,我们已经走在前列,只需数小时就可以生产一个高真实感的虚拟数字人。”高春鸣说道。彻底解决手语双向交流难题目前,中国一部分聋哑人的语言交流问题始终没能得到很好的解决,由此给聋哑人衣食住行带来了不同程度的困难。针对这一社会痛点,高春鸣带领团队打造了高逼真交互型虚拟数字人“千言”,她具备强大的手语双向互译能力和自然语言行为模态,可更好地服务听障人士。该数字人目前已正式落地到特殊教育、公共服务和生活社交多个场景中。记者了解到,手语虚拟数字人“千言”,可搭载一体机、电视、手机等多个端口,形成手语系列产品生态,为听障人士提供实时手语翻译,使听障人士可以通过无障碍沟通产品,完成办理政务服务等事务。“研究院将不断努力研发迭代产品,用科技的力量为聋哑人群体打造无障碍的生活环境,为他们的生活、社交、学习、出行提供全方位服务。”高春鸣表示。高春鸣介绍,过去在湖南大学作研究时,他带领的团队虽然在计算媒体领域拥有十余年的技术积累,但并不了解手语的重要性。在机缘巧合下,高春鸣接受了两位来自北京的教授的建议,启动了对数字人在手语领域应用的深层试探。在技术加持下,虚拟数字人在手语这一垂直领域的应用很快被打通。当谈及在技术推动过程中存在的难点时,高春鸣表示,对于汉语、手语互译的过程而言,汉语翻译成手语属于语言学范畴,实现起来相对容易;而手语翻译成汉语属于计算机视觉识别范畴,实现起来更加困难。如今,团队已彻底解决各种难点,双向交流的响应时间均能够控制在一秒钟之内。“整个团队下定决心,致力于解决社会痛点,从未考虑将收益放在第一位。”高春鸣说道。解决了双向交流的问题后,团队将六年来在手语方面积累的数字技术进行剥离,形成了从半自动化建模、行为驱动到多场景应用的完整系统级技术服务体系。与此同时,团队还计划启动虚拟数字人与真人的合作,共同完成短、长视频内容创作,用人工智能解决在影视视频制作过程中面临的各种问题,帮助影视制作降低制作成本、产出更多创意内容。助力全球研发中心城市建设记者了解到,湖南正谋划将长沙打造成为全球研发中心城市,使之成为湖南现阶段创新驱动发展的第四项标志性工程。”。在高春鸣看来,湖南省产业经济表现出两大特色,其一是在工程机械领域,长沙是名副其实的“全球工程机械之都”;其二是文创,以湖南广电、湖南新闻出版和湖南动漫为基础的文创产业,长期在全国处于第一方阵。从研究院的角度看,以AIGC为代表的技术演进,与高春鸣十年前开始研究的计算媒体高度重合。因此,研究院在过去两年均有承接湖南省和长沙市重大专项的研究和布局。例如,研究院与中国科学院自动化所、北京理工大学、长沙千博信息和长沙软件园有限公司等5家单位达成了重大专项合作,促进图、文、音,语义手势大模型的研究与产业化,目前,该项目正在稳步推进中。高春鸣透露,在即将召开的2023世界计算大会上,研究院将发布一项重大技术突破,即可以专门用手势语言进行交流的交互系统。通过该系统,听障人士可以直接通过手语与虚拟数字人进行交流,虚拟数字人识别聋人手语后,同时用手语和语音进行回答;非聋哑人则可以通过语音与虚拟数字人进行交流。该系统可以实现政务、医疗、交通领域的各项智能化服务,并同时服务于各类人群。“未来,研究院将践行湖南省委省政府提出的建设全球研发中心城市目标,在多模态虚拟数字人领域寻求更大突破,助力湖南省及全国在乡村振兴方面的产业需求。”高春鸣说道。延伸阅读:新型工业化调研行:长沙先进计算与先进制造“双向奔赴”记者手札:扎技术之根 结产业之果作者丨黄哲编辑丨诸玲珍美编丨马利亚监制丨连晓东微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章