Redian新闻
>
清华领衔多模态人机交互与AIGC数字生成,让「元宇宙GPT」落地千行百业

清华领衔多模态人机交互与AIGC数字生成,让「元宇宙GPT」落地千行百业

公众号新闻


清华AI技术走出实验室,走进元宇宙。



文|许璧端

ChatGPT带来了2023年第一个大爆的风口。无论是强大的写诗、撰文、编码等内容生成能力,抑或是语义推理、情绪分析、识别非法与偏见等对话能力,都让大众眼前一亮,也给ChatGPT所代表的AIGC技术应用带来无限想象空间。


时隔几个月,更新迭代的ChatGPT4.0面世,在原有的文本层面交互上,新增了接受图像输入和输出图像、音乐、视频回答的功能,开启了人机交互新时代。这背后涉及的多模态技术是人工智能行业近年来的研究热点。


多模态指的是多种模态的信息,包括文本、图像、视频、音频等,多模态技术就是将这些不同形式的数据融合在一起进行分析和处理的技术。以前的媒体信息处理模型往往只针对某种单一形式的媒体数据进行推理分析,但人类的感知是多模态的,“就像与人面对面进行交谈时,我们既听到他的声音、观测他的表情,同时也看他的手势。那么通过这样的多模态识别,就可以传递更多的信息。”


在清华大学电子系教授王生进看来,要想实现真正的人工智能,让人机交互还原人与人般自然的互动,就需要机器具备视觉、听觉和触觉等强大的感知能力,可以说多模态交互是未来AI技术的一大发展趋势。

专攻多模态交互技术,

让人机交互跨越感官


王生进1985年毕业于清华大学无线电电子学系,1997年在东京工业大学获博士学位,2003年回国至今在清华大学电子工程系任教,现任清华大学媒体智能与自主系统研究中心主任、北京信息科学与技术国家研究中心跨媒体智能创新团队负责人,先后参与了十多项国家纵向项目和数十项企业横向项目的研究和开发工作,多次获得国家及省部级和学会奖,2020-2022连续3年入选“爱思唯尔中国高被引学者”。


王生进教授(图源:「紫为云」)


王生进所带领的清华AI实验室团队主要研究方向定位人工智能、计算机视觉和机器学习,具体包括媒体大数据认知计算、跨媒体智能和多模态协作机器人三大方面。多模态融合就是跨媒体智能研究中的一项重要技术。


在跨媒体智能方面,清华AI实验室主要研究面向新一代人工智能的跨媒体数据认知计算,对文字、图像、语音等多种媒体进行统一的协同感知和计算,最终实现获得媒体所承载信息的识别和分析更加准确的结果。


细看当下较为普及的人工智能产品,其感知能力较为单一,即使具备多种感知能力也无法互通。例如智能音箱只能实现语音层面的交互,人脸支付在图像层面进行信息采集与识别,扫地机器人则通过机器视觉感知到环境信息。“对于智能机器来说,提高视觉、听觉、触觉等多种生物感官复合能力与信息复用能力,是增强智能化水平的一个重要研究方向,跨媒体智能便是其中的一项重要技术。”早在2017年国务院发布的新一代人工智能发展规划中,“跨媒体协同处理”就已经是人工智能五大发展重点之一。


王生进介绍,经过多年深耕,目前团队突破了跨媒体信息的高效特征学习统一语义表达,例如输入一段包含视觉信息、语音信息、字幕信息的视频,智能机器能够把这些信息统一表达出来。相比单一媒体,智能机器利用这三种媒体信息去理解同一事件或内容,提高了信息理解的准确性。


“跨媒体智能不仅仅是让智能机器拥有更多的感官能力,更是打破这些能力之间的物理隔离,让信息在更高维度层面进行融合和复用,真正让机器的感官能力‘动起来’。”因此,如何让多模态信息之间的融合互通成为多模态交互智能的难点,“即怎么把智能机器看到的和听到的关联起来”。


通过机器学习的方法,清华AI实验室让智能机器能够在海量、复杂的多元异构跨媒体数据里,准确即时地感知环境、推理信息并做出决策。“例如我对机器说一句‘请把桌子上的杯子递给我们’,机器能够听懂,并通过视觉识别技术看到桌子、找到桌子上的杯子,自主决策拿杯子的姿态、位置,像人一样握住把手递给我。”


然而受到复杂环境的制约,多模态交互技术目前无法达到100%的识别准确性,这也是清华AI实验室未来的研究重点:进一步提升识别性能和环境适应能力“让机器能听懂方言,在弱光线环境下也能看清目标物”。


同时,清华AI实验室将视觉感知、语音识别、融合理解、动作交互等媒体大数据认知算法和跨媒体智能能力放到机器人身上,相当于为其安装一个智能大脑。王生进希望这样的多模态协作机器人实体未来能够面向家庭服务、医院护理、战场救护,或是太空实验等特殊场景提供技术支撑。


基于自主研发的多模态感知一体化的智能机器人平台,清华AI实验室开发了面向老年人的喂饭机器人。就在3月23日,实验室团队刚刚带着这一项目在英特尔中国研究院发起的室内机器人学习全球挑战赛中夺得一等奖。

清华教授成立智能交互公司,

让AI技术走出实验室


在深耕科研的同时,王生进也花费不少力气让AI技术走出实验室。除了清华大学教授外,王生进还有一个重要身份:广州紫为云科技有限公司(以下简称「紫为云」)的首席科学家。基于跨媒体智能研究成果,清华AI实验室在多模态智能人机交互以及元宇宙系统等方面展开应用研究,并通过技术产业化公司「紫为云」落地产品。


2017年,作为清华大学首批人工智能产业化孵化项目的「紫为云」正式成立,这是王生进及其团队实现跨媒体智能科研成果迈向产业化的重要一步。自此,清华AI实验室和「紫为云」开始协同合作,向着虚实智能交互的方向进军,专注交互式人工智能技术,打造AR虚实交互的技术底座。王生进负责从未来技术发展方向的角度出发,确定公司未来的技术路线,将高校科学研究和企业产品研发紧密地结合在一起。


成立之时,王生进就提出打造一个连接虚实世界的沉浸式AI引擎。“要能够感知到人的行为意图、语言动作等等,然后还要让人能与虚拟世界里的物品、场景进行互动,就需要一个沉浸式的AI引擎。”基于王生进及清华AI实验室团队近30年的技术沉淀,「紫为云」很快打造出连接虚实世界的新一代人机交互智能技术引擎


新一代的人机交互智能要求强大的多模态信息感知能力,随着要处理的模态增多,对算力的要求也在提高,在算力有限的情况下,算力优化成为多模态交互技术的关键之一。此外,新一代人机交互智能技术体系的一大特点在于利用大数据和算法去驱动虚拟场景的生成,“虚拟空间里所有的驱动都是靠数据”。


新一代人机交互智能技术引擎相当于一个多技术集成站,多模态、算力优化、虚拟引擎、数据智能、人机交互等技术赋能给机器机器成为有感官、能思考的智能体,让人和虚拟世界的交互体验更自然、真实、温暖。


同时,清华AI实验室团队持续攻关前瞻性核心技术,例如三维姿态的识别技术、通用的人工智能内容生成技术,以及小样本的处理技术等等。王生进介绍,成立至今,「紫为云」经过两次技术迭代:从多模态算法向交互智能算法发展,这属于算法侧的结构升级;此外,清华AI实验室团队还实现了识别技术从二维向三维的跃迁,尤其是基于单目的二维手势识别和三维交互手势识别。


将相关技术融入到产品后,「紫为云」目前已推出AR元宇宙交互智能终端、AR元宇宙互动屏和互动平板等硬件产品,以及AR交互平台与AI应用系统、元宇宙虚拟云应用系统平台等软件产品。


一项前沿科技走出实验室,能否为用户和企业带来真正效益,还需要市场的验证。目前,「紫为云」产品已广泛应用于数字乡村、数字教育、数字医疗、数字文旅等场景中,为客户提供基于AR真实世界的元宇宙技术型解决方案。


以数字体育场景为例,「紫为云」和豪群炼盟(林书豪-李群篮球学校)正在合作开发“AR原地空手投篮动作纠偏”专用程序,解决篮球学员在校外练习投篮动作的标准化难题。学员在家训练时,通过手机摄像头采集其身体姿势图像,投屏到家用电视机作为体育教学的辅助工具。学员能看到全身各关节的夹角是否在高命中率的标准范围内、动作是否变形偏差;教练则可基于采集的数据分析来给学员更科学的指导,纠正不规范动作,提高了在家训练的效率和质量。


在去年6月,「紫为云」更是和国际屏显巨头「京东方」合作,联合开发“AR元宇宙互动屏”,将「紫为云」轻量化算法模型和虚实交互内容移植到成熟的智能硬件系统上。在广州市黄埔区,借助这块AR元宇宙互动屏,农业农村局为迳下村打造了一个AR元宇宙互动宣传窗口,互动屏可以捕捉真人的手势和身体动作,映射到屏幕中,村民可以在互动屏上体验拟真的3D虚拟体育内容,与3D麒麟共舞,或者咨询虚拟医生线上问诊。


广州市黄埔区迳下村AR元宇宙互动宣传窗口

(图源:「紫为云」)

使能万千企业,

放大人工智能的想象空间


人所处的现实世界是有限的,我们难以亲临每一个想去的真实场景,但无论是出于科研还是娱乐需求,我们又希望能接触这些遥远的现实世界,因此人们希望构建一个随时能在眼前展开的虚拟世界,体验遥不可及或是新奇的场景。这也是为什么人类甘愿投入巨大成本创造一个可以产生互动的虚拟世界。


在王生进看来,未来一段时间内虚实交互技术的研究热点仍会是利用多模态技术提高机器感知和认知人类意图的准确度,同时构建一个更加真实的虚拟空间,连接真实世界进行即时、多感官互动。要实现极致沉浸体验的虚实交互,除了感知识别技术,实时通信、高仿真显示、人机交互等相关技术也必不可少。


基于这一人机交互发展方向,王生进介绍,未来「紫为云」将持续聚焦开发基于自然交互的新一代人机交互智能技术,不仅仅关注AIGC的通用内容生成,还研究支撑通用内容生成的底层算法和算力;同时重点开发数据智能技术和平台技术,“因为基于元宇宙场景的数据要素是非常重要的,我们是把研究重点放在数据智能上,希望构建类脑的智能系统,让智能跃迁为智慧。”


AlGC高清图片内容生成技术(图源:「紫为云」)


人机交互是元宇宙的重要入口。新一代人机交互智能技术体系将算法算力、渲染引擎、数据通讯等技术深度融合后,试图打造一个开放的元宇宙使能平台,将清华大学多年来积累的科研成果进行开放共享,使能合作伙伴打造低成本、低算力、低延时的高性价比元宇宙产品,加速各行业人工智能的研究,放大元宇宙的想象空间。


实际上,在人工智能产业链上的众多企业当中,真正具有从研发到应用的技术链条的并不多,甚至说只有大厂有能力去构建自己的技术团队,研发算法等核心技术。人工智能中小企业迫切需要这些智能化技术,但是他们很难去构建一个自己的团队。王生进分析,这背后的主要原因在于人工智能领域人才的短缺,“一方面是人数不多,另一方面人力成本还是很高的”。「紫为云」希望能为中小企业提供AI底层技术的使能。


在「紫为云」董事长顾友良看来,“「紫为云」做的虚拟场景应用,它不是独立于现实世界的,而是回归便捷、轻量化技术,让元宇宙飞入寻常百姓家”。怀着使能、开放、合作共赢的理念,「紫为云」通过新一代人机交互智能技术引擎,牵引“元宇宙GPT新基建”高速列车,使能万千企业,探索场景落地,让元宇宙不再只是金字塔少数人才能享受的“黑科技”。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一周快讯丨河南150亿母基金完成备案;上海成立一支S基金;温州落地千亿产业基金集群GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?奥雅粤港澳大湾区元宇宙论坛暨元宇宙三十人深圳分论坛圆满举行 | 元宇宙与AIGC中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构活动预告|奥雅股份粤港澳大湾区元宇宙论坛暨元宇宙三十人深圳分论坛即将启幕为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT曝微软工业元宇宙团队全部被裁,包括创始人!ChatGPT火了,元宇宙不香了?元宇宙和人工智能正在协同加速发展——IEEE全球元宇宙大会系列峰会之“元宇宙迎来加速发展”精彩回顾AI + 元宇宙专场直播预告:AI + VSLAM 空间感知交互技术和超写实及风格化 3D 数字人生成震撼!GPT-4来了,支持多模态,全面吊打ChatGPT,完虐标准化考试卡麦尔的警察和二手店AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练下一本 | 人机交互迈入新时代!背后的伦理、法律隐忧不容忽视「元宇宙」之父:不存在「一个」元宇宙,AI 替代不了艺术家使能千行百业数智化 用友BIP跑出“+速度”红豆年糕2015千人计划变2023千屏突破了微软研究员联合Yoshua Bengio推出AIGC数据生成学习范式Regeneration LearningGPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成英特尔携手中国联通:加速网络变革释放5G潜能,助力千行百业数智化转型元宇宙系列(三):行业智能化,产业元宇宙来助力 | 3月9日TF95中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作早鸟报|文心一言回应百度股价波动;《流浪地球2》数字生命卡“翻车”;Office将能一键生成PPT...训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!生活在佛州,你得学好西班牙语CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑美国普林斯顿大学,校园印象微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出GPT-4推理提升1750%!普林斯顿清华姚班校友提出全新「思维树ToT」框架,让LLM反复思考第四范式胡时伟:To B 大模型的意义,就是让「好战略」落地为「强执行」达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力「元宇宙」伤了微软的心
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。