Redian新闻
>
PICO预研交互升级,自研多模态追踪算法,裁掉手柄大圆环

PICO预研交互升级,自研多模态追踪算法,裁掉手柄大圆环

公众号新闻

PICO 自研的多模态追踪算法方案 Centaur,将「光学追踪算法」与「CV 模态裸手追踪算法」融合并率先实现了融合算法的产品化,解决了小型化手柄在遮挡情况下识别难的问题。同时,手柄+裸手的融合式方案也为 XR 交互提供了新的思路。

Apple Vision Pro 的无手柄设计引发了大量讨论,它挑战了我们对 XR 用户体验的传统认知,提供了一种全新的、更为直观的交互方式。然而,尽管这种去手柄化的趋势在某些场景下可能有其独特的优势,但手柄在 XR 头显的交互方式中的重要性仍然不容忽视。

手柄作为一种成熟且被广泛接受的交互工具,在需要精确输入或复杂操作的情况下,例如一些游戏或绘画、手术模拟等专业训练中,通常可以提供更好的体验。此外,手柄能够为用户提供触觉反馈,这是目前无手柄方案难以实现的,而触觉对于创建沉浸式体验又至关重要。

不过,传统的手柄往往体积较大,重量较重,长时间使用可能会引起用户的疲劳。因此,许多 XR 厂商一直致力于研发更轻、更小巧的手柄设备,以提升用户体验。

但是,轻量化手柄的研发面临多个难点,其中一项主要的挑战便是高精度追踪的问题:首先,小型化设备限制了传感器的大小和数量;其次,由于手柄小,用户可能会更频繁地做出快速和复杂的手势,这也对追踪系统的稳定性和准确性提出了更高的要求;设备的小型化还可能会限制摄像头的视场角,使得手柄在一些极端姿态下无法被有效追踪。此外,高精度的追踪通常需要进行更多的计算,因此功耗管理也是小型化手柄研发中的一个重要挑战。


 融合光学追踪与裸手识别算法 

 实现遮挡情况下稳定追踪 



基于 AI 方面的积累,PICO 创新性地提出了一种多模态的手柄追踪解决方案,成功在小型化手柄上实现了稳定的高精度追踪。

「我们在人手握姿的实时估计方法、多模态下的数据融合方法,以及基于 IMU(Inertial Measurement Unit,惯性测量单元)的高精度预测方法等方面,取得了一些突破创新,」PICO 研发团队表示:「提出了一种多模态的手持控制器追踪方法,能够提供更广的追踪范围,减小追踪盲区,为用户带来更好的体验。」

PICO 此次自研的 Centaur多模态追踪算法,将光学追踪算法与 CV 模态下的手柄追踪算法融合,其中光学追踪算法通过识别手柄中 LED 灯发射出的红外光(IR),实现对手柄的定位追踪;CV 模态手柄追踪算法,能够在手柄上的 LED 灯被遮挡时,也即在极少 IR 或没有 IR 的情况下,通过追踪裸手的特征,准确还原出手柄控制器的 6DoF 信息,从而保持对手柄的稳定追踪。


【图说】 Centaur 多模态融合算法,将视觉信息与惯性信息融合,得到手柄位姿及速度的最优估计。具体说,多模态追踪算法使用从头显摄像头、内置IMU模块、3-DOF模块、深度学习手势检测及追踪模块、光学定位模块采集到的多种模态数据,分析手部特征、手柄运动信息、LED位置,以及全局上下文信息,进行精准的位姿预测和估计。最后,通过多帧融合滤波器对所有获取的信息进行融合计算,产生高精度、高帧率的手柄位置、旋转及速度信息,供上层应用使用。

光学追踪算法在 XR 产品中有着广泛的应用,主要用于实现精准、低延迟的位置和运动追踪。这些算法通常利用摄像头(或其他光学传感器)捕获的图像数据,通过识别和追踪特定的视觉特征,如颜色、纹理、形状等,来计算物体(如用户的头部、手部或控制器)的位置和运动。

PICO 采用的是基于红外光(IR)的主动式光学定位追踪方案,这种技术可以通过头显摄像头,观测到手柄上发射的 IR,并通过光斑检测和多视图几何原理来计算手柄的位置和姿态。与传统的电磁定位和超声波定位相比,具有高精度、低成本、低功耗等优点。

针对小型化手柄的一系列工程和技术挑战,PICO 组建了一个跨部门的攻关小组,包括交互感知内部的数据交互团队、裸手追踪算法团队和手柄追踪算法团队。

经过多次论证后,团队设计了一套基于神经网络(AI 模型追踪技术结构)的多模态手柄追踪框架,其核心技术即上文提到的 Centaur多模态追踪算法,该框架融合了 IMU、光学传感器和手部图像这几种不同模态的信息,在手柄被遮挡的情况下,裸手追踪能够提供更加精准的观测,同时手柄给手部追踪提供更准确的预测,两者深度融合,相互辅助。



【图说】 Centaur多模态追踪算法,融合了 IMU、光学传感器和手部图像等不同模态的信息,在手柄被遮挡的情况下,裸手追踪可以补充提供精准的观测。

裸手追踪(hand-tracking),也叫手部追踪或手势追踪,通过直接捕获和分析用户的手部姿态、位置和运动,使用户可以在 XR 环境中直接用手势进行交互,无需穿戴特殊设备(如手套或指环),也免去了学习复杂的控制器操作过程,大幅降低了使用门槛,因而在 XR 领域备受关注。

不过,尽管裸手追踪能够提供更加流畅、自然的交互体验,但也面临诸多挑战。例如,裸手追踪需要高精度和低延迟,以便能够实时准确地捕捉用户的动作。此外,光照条件、背景干扰、用户的手部形状和颜色差异等因素,也可能影响裸手追踪的表现。

「CV 模态手柄追踪场景下,由于手柄的遮挡,导致裸手视觉特征不明显,常常引发追踪失效。」PICO 裸手算法团队成员表示:「针对该难点问题,我们创新性地融合了 Down-Top 的端到端 6DoF 追踪算法,通过有效利用多目时序的全局上下文信息,比如身体的骨骼信息以及结合时间顺序判断,一次性准确且稳定地预测手部位姿,能够在手柄追踪失效时,及时提供鲁棒的位姿。」

Top-Down & Down-Top


【图说】在计算机视觉和深度学习领域,Top-Down 和 Down-Top 是对象检测和识别的两种常见策略。Top-Down 通常从全局或更大尺度的视角开始,逐渐向更精细的细节进行;Down-Top 则从小尺度的细节开始,逐渐构建出全局的视图。PICO 团队采用 Down-Top 方案,能够在精度相近的情况下,提高手柄的检出率,从原先的 36% 提升到了93%。从上图中看,右侧 Down-Top 图中连贯的绿线即表示系统有在持续并且稳定地追踪。

裸手追踪算法团队设计的这个端到端 6DoF 追踪算法,融合了 PICO 研发团队在过去一年多的时间里取得的多项技术突破:

  • 手部多视角协同自监督学习方法 HaMuCo:利用多视角的信息,通过自监督学习和一致性损失函数,能够在没有大规模 3D 标注数据集的情况下,获得优秀的手部姿态预测结果。这项工作也获得了 ECCV HANDS22 Challenge 第一名。

  • 手部姿态预测和图像对齐框架 DIR:DIR 是「解耦合迭代修正框架」(Decoupled Iterative Refinement)的缩写,该框架解决了二维视觉特征空间和三维节点特征空间的耦合问题,DIR 在二维视觉特征空间中处理图像信息,在三维节点特征空间中处理手部姿态信息。DIR 使用节点特征作为二维和三维空间之间的「桥梁」,使得这两个空间可以相互沟通,从而实现特征增强和姿态修正。在最具挑战性的双手数据集上取得了 SOTA 精度,在处理复杂数据集和泛化到新情况方面也表现出色。该工作入选 ICCV2023 Oral 论文,足以证明其质量。


【图说】图片来自 DIR 论文
https://arxiv.org/abs/2302.02410

  • 从单视图中重建双手姿态的新方案:由于单视角固有的歧义性以及双手具有相似的外观、自遮挡严重等问题,从单视图中重建双手是一项巨大的挑战,团队转变思路,首先构建了一个双手互动的先验,然后将互动重建任务定义为从这个先验中进行条件采样的任务。具体说,团队通过运动捕捉(MoCap)系统构建了一个大规模的双手交互数据集,然后利用这些数据建立了一个基于 VAE 的双手交互先验网络,再利用 ViT 从单视角图像中提取特征,并充分融合双手交互先验的相关性,从而获得了双手重建的 SOTA 结果。

  • XR 场景全身姿态估计技术:提出了一个能够建模全身关节点相关性的两阶段框架,基于 XR 场景下能够获取的有限的跟踪信息(包括关节点位置特征、关节点旋转特征以及输入特征),回归出准确、平滑和合理的全身姿态序列。模型在虚拟数据集(AMASS)和实采数据集上的实验中,展现出了优于现有方法的准确率、平滑性和物理合理性,极大地提高了用户的沉浸式体验。

「这是团队协作的成果,」PICO 攻关小组负责人表示:「数据交互团队基于高精度动作捕捉系统完成了数据采集和标注;裸手追踪算法团队设计了 SOTA 的端到端 6DoF 位姿估计模型,提升了手部追踪的稳定性;手柄追踪算法团队则提升了光学追踪的稳定性和整个算法框架的实现,多模态的手柄追踪算法在手柄被遮挡情况下仍然能保持稳定追踪。」

「光学追踪和裸手追踪这两大类算法,从追踪框架上不是独特唯一,也不是我们最先研究的,但是将它们融合起来并产品化,截至目前我们是第一家。」


 从研究到产品:新一代无灯环小手柄 



PICO 最新推出的小手柄,采用无灯环设计,配合头显进行双手空间定位捕捉,通过头显的 inside-out 光学追踪定位原理,计算出手柄的空间运动轨迹,并结合 6 轴传感器完成无线控制器的 6DoF 捕捉,进而结合控制器的物理按键、马达反馈、摇杆等反映到虚拟现实世界中,用于增强虚拟现实人机交互的能力,提升沉浸感。


【图说】PICO 最新一代无灯环小手柄。新手柄 LED 灯减少且均在手柄内,更容易被手部遮挡,因此对手柄追踪的鲁棒性带来重大挑战。

相比上一代手柄,无灯环小手柄更加轻巧便携,重心偏手心位置(电池和马达更集中),握持手感更好;双手柄的相互干涉概率更小,整体交互会更自然。重量相比上一代手柄轻约15g,高度减少50%。

追踪效果方面,采用自研 Centaur 多模态追踪算法方案,有效解决了双手遮挡情况下的手柄追踪精度问题,毫米级追踪精度,延迟<5ms。

能耗方面,根据 PICO 内部测试的结果,在每天运动 1 小时的情况下,可以持续工作超过 80 天。

实际上,在 PICO 4 早期的研发阶段,团队就有过制作无灯环小型手柄的想法。2022 年 6 月,小手柄研发项目正式启动后,团队探索过多种追踪方案,包括自追踪和其他传感器的追踪方案,考虑到精度及成本等因素,最终决定以光学追踪为基础,结合裸手追踪的最新技术,探索出了一条多模态的追踪方案。

「以高精度光学位姿解算和裸手追踪为基础,实时估算手柄和手掌的相对位置关系。在光学解算失效的情况下,使用裸手检测的结果还原出手柄控制器的 6DoF 信息。」PICO 裸手追踪算法团队成员表示。

「这样我们的手柄控制器追踪系统不仅能够使用红外 LED 做到高精度的追踪,也能够利用裸手检测“隔山打牛”,最终实现了抓握圆盘的握持方式下依然稳定的追踪效果,通过了极客玩家的挑剔测试。」


【图说】小手柄会面临更多低 LED 观测数量下的初始化与追踪问题,从数学上解算难度更大。上图为仅有 3 颗 LED 灯时手柄静止状态下的追踪效果,可以看出,多帧紧耦合比单帧松耦合的结果更加精确,追踪更加稳定,波动显著减小。


 手柄交互+裸手交互 

双线布局应对未来 



光学追踪和裸手追踪两大类算法,经历了 PICO Neo3 和 PICO 4 两代产品的打磨,对用户需求更了解,技术广度和深度有足够的积累。

作为最早将光学追踪产品化的 XR 企业之一,PICO 的光学追踪系统在许多技术点上表现出优势,精度和性能等指标目前处于全球第一梯队。PICO 的裸手追踪技术则在这两年间快速积累,已经可以实现相当精确和稳定的手部和指尖追踪。

「在高难度的快速运动场景下,我们通过不断优化端到端的时序模型、千万级高精训练集,以及 MTP(Motion to Photon,动显延迟)测试方案,目前算法延迟与追踪丢失率在全球范围能做到技术领先,给用户在游戏与运动场景带来了流畅且稳定的体验。」

如今,数据驱动的 AI 正以前所未有的方式塑造着未来,尤其在 XR 领域,由于硬件和算法持续快速迭代,数据的效率、质量和可扩展性对于开发交互式 AI 算法至关重要。

PICO 拥有行业领先的全方位自研软硬件基建,覆盖数据生产平台(含相机阵列与仿真系统)和测试平台等,特别关注高效数据获取、高精度数据标注和数据应用相关的工作,也为技术和产品的研发奠定了坚实的基础。

「为了生产高精数据,我们在小手柄裸手姿态数据的高精标注任务中,一方面采用了自研的业内领先的基于相机阵列的多视角手部姿态标注技术方案;另一方面针对该特定任务进行了预重建,进一步提升了手部姿态数据的精度。」PICO 数据交互团队表示。

1.采集前,结构光扫描及注册---2.阶段一,采集手和手柄空间关系---3. 阶段二,手柄跟踪及手势标签


【图说】PICO高精度数据采集与自动标注流程


【图说】AI合成方案,通过仿真手部模型扩大数据采集样本


「我们在数据生产上也提供了多套技术方案,如相机阵列的真实采集与仿真合成平台方案,多种方案结合,有力保障 AI 训练数据的支撑。」



 结语 



当前,XR 领域技术快速更迭,PICO 在光学追踪和裸手追踪两条技术路线上双线布局,表明了其在对技术发展趋势的洞察上具有一定的前瞻性。


「裸手+手柄」的融合式交互方案,结合了裸手追踪的直观性和手柄输入的精确性,既可以提供自然、直观的体验,又可以实现精确、细致的操作,在游戏、教育、医疗、设计等领域,很多 XR 应用中都是一个非常有吸引力的选项,有望成为未来 2~3 年行业的主流交互趋势。


作为国内最早参与 XR 领域的企业之一,PICO 凭借前瞻性的技术意识和充分的技术积累,确立了其在行业中的领先地位。此次自研 Centaur 多模态追踪算法,申请专利并成功产品化,再加上全方位自研的软硬件基础设施,这些都是技术优势的体现,也是 PICO 能持续领跑行业的关键。


在科技产业,寻找创新与保持一致性之间的平衡是挑战也是艺术。一方面,创新性和差异性是推动行业向前发展的引擎,为用户带来更高效、更具吸引力的体验。另一方面,一致性对于确保平稳过渡和降低过渡成本具有至关重要的作用。PICO  的融合式交互方案巧妙地展现出了这样的一致与创新。正如混合动力汽车为消费者和制造商提供了平滑过渡到全电动汽车的途径。同样,手柄+裸手的融合式交互技术也提供了一条路径,使得 XR 行业可以更加平顺地迈向下一阶段。人机交互的设计应当始终以用户为中心,包括那些有特殊需求或身体限制的人。让我们期待 PICO 的这份执著和专注,继续为玩家带来更多超越想象的惊喜。


参考资料

  • 高效数据获取 HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning,https://arxiv.org/abs/2302.00988

  • 高精度数据标注 Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image,Reconstructing Interacting Hands with Interaction Prior from Monocular Images,https://arxiv.org/abs/2302.02410

  • 单视图中重建双手Reconstructing Interacting Hands with Interaction Prior from Monocular Images,https://arxiv.org/abs/2308.14082

  • 数据应用 Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling,https://arxiv.org/abs/2308.08855


*声明:非VR陀螺官方稿,法律问题一切与VR陀螺无关。文章来源:机器之心



  第一时间了解XR资讯  
  关注VR陀螺官网(vrtuoluo.cn)

VR陀螺的联系方式:
商务合作 | 投稿 :
西瓜(微信号 18659030320)
六六(微信号 13138755620)
寻求免费曝光:
六六(微信号 13138755620)
投稿邮箱:[email protected]




推荐阅读

 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章对话光大证券高瑞东:储蓄和投资不匹配矛盾突出,从三方面加强政策预研储备“大圆哥”抖音一周涨粉209万,单条视频获赞734万;“炫奇会拍照”教拍照技巧,小红书涨粉11万 | 涨粉周榜又一场伟大的胜利VIVO影像算法研究部招聘算法实习生(技术预研&发表论文)ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!光学追踪+裸手识别,是时候跟游戏手柄说再见了吗?大圆柱电池成热门优选,相关设备领跑者逸飞激光驶入快车道破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型深圳内推 | 微信视觉团队招聘AIGC/多模态/LLM等方向算法实习生MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务Nat. Commun. | 高歌课题组提出跨平台、多模态空间组学比对与整合方法让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%《海边拾贝·西格尔的故事之一》实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了今天,不要嫌这大圆脸丑啦!多模态搜索算法如何让视频搜索更精准?腾讯独家揭秘,超详细一加Ace 2 Pro预热:全新 1.5K 灵犀触控屏,自研“雨水触控”技术迷春OpenAI最新大模型曝光:剑指多模态,GPT-4之后最大升级北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind《海边拾贝·希尔伯特的故事》清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了蔚来将与蜂巢组建合资公司,整合大圆柱电池研发|36氪独家单卡对标A100!讯飞华为发布大模型一体机,星火升级代码多模态能力,现场几分钟实现凌空手写北京内推 | 百度AIGC团队招聘多模态方向计算机视觉算法工程师/实习生Seres宣布战略重组,裁员41%,确定优先级,削减项目,延长现金流《海边拾贝·西格尔的故事之二》亚马逊正在开发“奥林匹斯”AI,以缩小与OpenAI和微软的差距;三星或自研光线追踪和AI超采样技术丨AIGC日报上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生北京内推 | 联想研究院招聘CV/多模态方向暑期/日常算法实习生懋德运营的来广营街道社会心理服务中心迎贵客 调研交流拓思路 专家指导促提升数字交互成重要互动媒介, 澳洲急需创新人才! 莫纳什交互设计专业详解行业观点 | 从多模交互到网联安全,汽车智能化竞争升级微软加入自定义GPT大战!Bing Chat改名,自研芯片登场,连甩13项AI升级
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。