Redian新闻
>
逆天 美国华裔学生开发人脸机器人 表情超逼真

逆天 美国华裔学生开发人脸机器人 表情超逼真

公众号新闻



  新智元报道  

编辑:桃子 润
【新智元导读】OpenAI机器人理解力虽强,却无法进行非语言交流。最近,哥伦比亚大学华人团队打造了全新的机器人Emo,不仅可以提前预测和模拟人类表情,还可以进行眼神交流。

此前,人形机器人Ameca「大梦初醒」的神情,已让许多人感受到了真正的「恐惧」。

随着ChatGPT横空出世,得到加持的人形机器人虽擅长语言交流,但是在非语言交流,特别是面部表情,还差得很远。

未来,如果人类真的要生活在一个充满机器人的世界之中,机器人必须要有像人类一样能自主通过面部表情获取人类的信任的能力。

显然,设计一款不仅能做出各种面部表情,还能知道何时表现的机器人,一直是一项艰巨的任务。

来自哥伦比亚大学工程学院的创新机器实验室,5年来一直致力于这一挑战。

最近,研究团队推出了一款机器人Emo——能够预测人类面部表情,并与人类同时做出表情。

最新研究已发表在Science子刊上。

论文地址:https://www.science.org/doi/10.1126/scirobotics.adi4724

Emo的自我监督学习框架,就像人类照镜子来练习面部表情。

有趣的是,Emo甚至学会了在一个人微笑前840毫秒提前预测,并同时与人类一起微笑。

这种快速及时的表情回应,能让人类感受到机器人的真诚和被理解的感觉。

而且,它还可以做出眼神互动。

Emo如何能够做到精准预测人类表情?

人机交互革命正来临


由Hod Lipson带领的研究团队称,在开发机器人Emo之前,需要解决两大挑战。

首先是硬件方面,如何机械地设计一个涉及复杂硬件和驱动机制,且具有表现力的多功能机器人人脸。

另一方面,就是设计好的机器人脸,需要知道生成哪种表情,让其看起来自然、及时和真实。

而且更进一步,研究小组还希望训练机器人能够预测人类的面部表情,并与人同时做出这些表情。

具体来说,Emo脸部配备了26个执行器,可以呈现出多种多样的微妙面部表情。

在执行器之外,Emo的脸使用了硅胶皮设计,方便快速定制和维护。

为了进行更加逼真的互动,研究人员为机器人的眼睛配备了高分辨率摄像头。

因此Emo还可以做到眼神交流,这也是非语言交流中重要的一部分。

此外,研究小组还开发了两个人工智能模型:一个是通过分析目标面部的细微变化来预测人类的面部表情,另一个使用相应的面部表情生成运动指令。

为了训练机器人如何做出面部表情,研究人员将Emo放在相机前,让它做随机的动作。

几个小时后,机器人学会了他们的面部表情和运动指令之间的关系。

团队将其称为「自我建模」,与人类想象自己做出特定表情的样子。

然后,研究小组为Emo播放了人类面部表情的视频,通过逐帧观察并学习。

经过几个小时的训练后,Emo可以通过观察人们面部的微小变化,来预测他们的面部表情。

这项研究主要作者Yuhang Hu表示,「我认为,准确预测人类面部表情是人机交互(HRI)的一场革命。传统上,机器人的设计并不考虑人类在交互过程中的表情」。

「现在,机器人可以整合人类的面部表情作为反馈。当机器人与人实时进行共同表达时,不仅提高了交互质量,还有助于在人类和机器人之间建立信任。未来,在与机器人互动时,它会像真人一样,观察和解读你的面部表情」。

接下来,一起看看Emo背后设计的具体细节。

技术介绍


机械控制结构


Emo 配备了26个执行器(下图),提供了更高的面部自由度,可以做出不对称的面部表情。

(1 和 2) 用磁铁连接的连杆控制眉毛。(3) 上眼睑。(4) 下眼睑。(5) 眼球连杆。(6) 眼球框架。(7) 相机

(8至10和13) 口形被动连杆机构。(11 和 12)二维五杆机制(2D five-bar mechanism)的连杆。

Emo设计的主要区别之一是使用直接连接的磁铁来使可更换的面部皮肤变形。这种方法可以更精确地控制面部表情。

此外,Emo的眼睛内嵌摄像头,可实现仿人视觉感知。

这些高分辨率的 RGB(红、绿、蓝)摄像头,每只眼睛的瞳孔内都有一个,增强了机器人与环境互动的能力,并能更好地预测对话者的面部表情。

眼睛模块控制眼球、眉毛和眼睑的运动,如上图所示。

每个眼框都装有一个高分辨率 RGB 摄像头。眼框分别由两个电机通过平行四边形机构在俯仰和偏航两个轴上驱动。

这种设计的优点是在眼框中央创造了更多空间,使研究人员能够将摄像头模块安装在与人类瞳孔相对应的自然位置。

这种设计有利于机器人与人类进行更自然的面对面互动。

它还能实现正确自然的注视,这是近距离非语言交流的一个关键元素。

除了这些硬件升级外,研究人员还引入了一个由两个神经网络组成的学习框架——一个用于预测Emo自身的面部表情(自我模型),另一个用于预测对话者的面部表情(对话者模型)。

研究人员的软皮人脸机器人有23个专用于控制面部表情的电机和3个用于颈部运动的电机。

整个面部皮肤由硅胶制成,并用30块磁铁固定在机器人面部之上。

机器人面部皮肤可以更换成其他设计,以获得不同的外观和皮肤材质。

表情生成模型


研究人员还提出了一个升级版逆向模型,可使机器人在相同的计算硬件上生成电机指令的速度比上一代产品快五倍以上。

他们提出了一种自我监督学习过程,以训练研究人员的面部机器人在没有明确的动作编排和人类标签的情况下生成人类面部表情。

控制机器人的传统方法依赖于运动学方程和模拟,但这只适用于具有已知运动学的刚体机器人。

机器人有柔软的可变形皮肤和几个带有四个套筒关节的被动机构,因此很难获得机器人运动学的运动方程。

研究人员利用基于视觉的自我监督学习方法克服了这一难题,在这种方法中,机器人可以通过观察镜子中的自己来学习运动指令与所产生的面部表情之间的关系。

机器人的面部表情由19个电机控制,其中18个电机对称分布,一个电机控制下颌运动。

在研究人员的案例中,面部数据集中的表情都是对称的;

因此,对称分布的电机在控制机器人时可以共享相同的电机指令。

因此,实际的控制指令只需要11个归一化为 [0, 1] 范围的参数。

面部反演模型是利用机器人自身生成的数据集(下图)进行训练的,其中包括电机指令和由此产生的面部地标。

研究人员以自我监督的方式,通过随机的 「电机咿呀学语 」过程收集数据。在将指令发送到控制器之前,该过程会自动删除可能会撕裂面部皮肤或导致自碰撞的电机指令。

在伺服电机到达指令定义的目标位置后,研究人员使用RGB摄像头捕捉机器人的面部图像,并提取机器人的面部地标。

通过将自我模型和预测对话者模型相结合,机器人可以执行协同表达。

表情预测模型


研究人员还开发了一个预测模型,它可以实时预测对话者的目标面部表情。

为使机器人能及时做出真实的面部表情,它必须提前预测面部表情,使其机械装置有足够的时间启动。

为此,研究人员开发了一个预测面部表情模型,并使用人类表情视频数据集对其进行了训练。该模型能够根据一个人面部的初始和细微变化,预测其将要做出的目标表情。

首先,研究人员使用每组面部地标与每个视频中初始(「静止」)面部表情的面部地标之间的欧氏距离来量化面部表情动态。

研究人员将静止面部地标定义为前五帧的平均地标,目标面部地标则定义为与静止面部地标差异最大的地标。

静态面部地标的欧氏距离与其他帧的地标的欧氏距离会不断变化,并且可以区分。

因此,研究人员可以通过地标距离相对于时间的二阶导数来计算表情变化的趋势。

研究人员将表情变化加速度最大时的视频帧作为 「激活峰值」。

为了提高准确性并避免过度拟合,研究人员通过对周围帧的采样来增强每个数据。

具体来说,在训练过程中,预测模型的输入是从峰值激活前后总共九帧图像中任意抽取四帧图像。

同样,标签也是从目标脸部之后的四帧图像中随机取样的。

数据集共包含45名人类参与者和970个视频。其中80%的数据用于训练模型,其余数据用于验证。

研究人员对整个数据集进行了分析,得出人类通常做出面部表情所需的平均时间为0.841 ± 0.713秒。

预测模型和逆向模型(仅指研究人员论文中使用的神经网络模型的处理速度)在不带 GPU 设备的 MacBook Pro 2019上的运行速度分别约为每秒 650 帧(fps)和 8000 帧(fps)。

这一帧频还不包括数据捕获或地标提取时间。

研究人员的机器人可以0.002秒内成功预测目标人类面部表情并生成相应的电机指令。这一时间留给捕捉面部地标和执行电机指令以在实体机器人面部生成目标面部表情的时间约为0.839秒。

为了定量评估预测面部表情的准确性,研究人员将研究人员的方法与两个基线进行了比较。

第一种基线是在逆模型训练数据集中随机选择一张图片作为预测对象。

该基线的数据集包含大量由咿呀学语产生的机器人表情图片。

第二条基线是模仿基线,它选择激活峰值处的面部地标作为预测地标。如果激活峰值接近目标脸部,那么该基线与研究人员的方法相比就很有竞争力。

然而,实验结果表明,研究人员的方法优于这一基线,表明预测模型通过归纳面部的细微变化,而不是简单地复制最后输入帧中的面部表情,成功地学会了预测未来的目标面部。

图4B显示了对预测模型的定量评估。

研究人员计算了预测地标与地面实况地标之间的平均绝对误差,地面实况地标由维度为113×2的人类目标面部地标组成。

表格结果(表S2)表明,研究人员的方法优于两种基线方法,表现出更小的平均误差和更小的标准误差。

Emo下一步:接入大模型


有了能够模拟预测人类表情的能力之后,Emo研究的下一步便是将语言交流整合到其中,比如接入ChatGPT这样的大模型。

随着机器人的行为能力越来越像人类,团队也将关注背后伦理问题。

研究人员表示,通过发展能够准确解读和模仿人类表情的机器人,我们正在向机器人可以无缝地融入我们的日常生活的未来更近一步,为人类提供陪伴、帮助。

想象一下,在这个世界,与机器人互动就像与朋友交谈一样自然和舒适。

作者介绍


Yuhang Hu(胡宇航)是这篇论文的通讯作者。

目前,他是哥伦比亚大学的博士生,专注于机器人和机器学习的研究。

最后,一起来看看Emo的介绍视频。


参考资料:

https://www.engineering.columbia.edu/news/robot-can-you-say-cheese

汇聚北美
汇聚北美
公众号
来源:新智元

声明:本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因,或会存在不当使用的情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系及时处理。

    扫一扫本公众号二维码关注

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
认罪!面临5年刑期和200万罚款!康奈尔华裔学生承认发布针对犹太学生的死亡威胁...AI读心术再升级!一副眼镜直接控制波士顿机器狗,脑控机器人成真Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会黄仁勋甩出最强AI核弹!GPU新架构性能暴涨30倍,首发人形机器人大模型,联手苹果闯MR美股基本面 - 2024_02_02 * 晨报 * 英特尔回应200亿美元芯片制造项目延期:一号工厂已动工,施工进度稳定推进。揭晓!中国华东最具潜力机器人榜单:5年内必出独角兽!美国|发小”变脸“,14岁华裔学生家门口遭同学围殴,捅伤肺部国产大模型卷翻机器人!这些火遍全网的机器人,都装上了星火「大脑」波士顿动力转向纯电机器人,电动为什么是机器人唯一方向?风水轮流转!男子工作不顺 花$6美元买彩票 中下$10万刀心情超好阿克顿勋爵:每个时代的自由,都面临四大挑战悲剧!16岁华裔学生吸笑气身亡,父母竟浑然不知悲剧!16岁华裔学生吸笑气身亡,父母竟浑然不知,有人说堪比冰毒,比海洛因还狠…悲剧:16岁华裔学生吸笑气身亡,父母竟浑然不知!多名留学生半身瘫痪,它堪比冰毒比海洛因还狠…SK海力士与台积电签署谅解备忘录,合作开发HBM4和下一代封装技术;均普智能预计下半年发布二代人形机器人“贾维斯”丨智能制造日报全球首个OpenAI机器人诞生!Figure 01碾压马斯克擎天柱,10亿机器人大军正式启动【痛心】非管制药物泛滥 华裔学生吸食笑气过量身亡!认罪!康奈尔华裔学生恐吓犹太学生,将面临最高5年刑期和180万罚款!美国机器人应用遥遥落后?时隔15年,十所顶尖高校重启「国家机器人路线图」北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人;北京拟最高奖励1亿元支持人工智能产业发展丨AIGC日报MIT留学生枪杀耶鲁华裔学生:获刑35年!48、长篇家庭伦理小说《嫁接》第十二章 初恋情人(1)消息称三星停止自动驾驶研究,开发人员转到机器人领域;我国首台新型智能重载电力机车下线丨智能制造日报有知识无常识度量开发人员生产力:17 家科技公司的经验总结开源日报 | AI手机需要新故事;做了十几年的操作系统和AI应用,跨界到机器人领域;苹果曾试图为安卓开发手表方便华裔老人就医!华裔高中生开发AI人工智能「洪医生打招呼」热线《读稼轩情词几首后感》 其三恐怖谷!哥大华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真德州大学华裔学生失踪多日,校外发现遗体特斯拉正在开发“私有5G”基础设施,为电动汽车和人形机器人提供连接;宁德时代官宣两款新电池,首发车型或是小米SU7丨智能制造日报波士顿动力抛弃液压机器人Atlas,推出全新电动化机器人,动作超灵活波士顿动力机器人背后的开发秘密!CTO独家分享|一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕「懂物理」是具身智能核心!北大高逼真物理仿真,加持磁性微米级机器人登Nature子刊
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。