Redian新闻
>
IEEE RAL 2024 | Safe-VLN:针对连续环境中视觉语言导航任务的避障框架

IEEE RAL 2024 | Safe-VLN:针对连续环境中视觉语言导航任务的避障框架

科学

©PaperWeekly 原创 · 作者 | 岳露

单位 | 北京大学

研究方向 | 视觉语言导航


论文题目:

Safe-VLN: Collision Avoidance for Vision-and-Language Navigation of Autonomous Robots Operating in Continuous Environments

论文链接:

https://ieeexplore.ieee.org/abstract/document/10496163

https://arxiv.org/pdf/2311.02817.pdf



研究背景

在数字化、智能化浪潮下,通过指令控制无人系统执行一系列复杂操作达到某一特定目标的重要性日益凸显。而连续环境中的视觉和语言导航任务(Vision-and-Language Navigation in Continuous Environments,VLN-CE)[1] 便是其中的一项特定任务,并被视为人机交互领域在具身智能上的重要延伸。

具体而言,该任务通过自然语言指令控制无人系统在 3D 连续环境中根据视觉输入进行导航。另外,VLN-CE 属于计算机视觉、自然语言处理以及智能体等多学科交叉任务,通过对视觉语言进行特征提取与匹配,对智能体的下一动作进行推理。该技术能够使移动智能体在现实环境中理解人类的语言指令并完成任务,更贴近现实生活中人们对智能体的需求。

然而,在将 VLN 中算法迁移至 VLN-CE 任务中时,导航性能上有着显著差距,原因之一是在没有完美导航假设的连续环境中,智能体经常会发生碰撞。因此,本团队提出了面向 VLN-CE 中的碰撞问题的安全避障框架,针对 VLN-CE 中的碰撞情形进行了分类并提出 Safe-VLN,该工作近期发表在 IEEE Robotics and Automation Letters(RAL)上。 

如图 1 所示,在视觉语言导航任务中,障碍物会导致智能体偏离原计划路线,甚至在一些特殊情况下,智能体会被困于障碍区域无法继续前进。因此,如何解决现实场景中存在的导航安全问题成为 VLN 算法从离散环境迁移到连续环境乃至现实环境中的关键。

▲ 图1. VLN-CE碰撞情形分类示意图

碰撞情况在 VLN-CE 中普遍存在,这是由连续环境设置带来的挑战所引起的。首先,与离散环境中的航路点位置相比,由于对周围环境的不正确感知,航路点预测器会将候选航路点预测在障碍区,导致航路点不可达。其次,在连续环境中,没有了相邻节点之间的完美导航,当涉及到具有重建误差的障碍物时,智能体容易被障碍物干扰导航路线,从而无法到达下一个子目标。
虽然在智能体自主导航中存在许多避障研究,但由于 VLN-CE 中较长的导航路径、更复杂的环境以及额外的指令对齐等难度,处理避障的难度大大提升。受自主导航中碰撞研究的启发,本文对 VLN-CE 中碰撞的原因进行了分类,提出了连续环境下自主智能体视觉语言导航的安全避障方法,相应地改进了航路点预测器和导航规划模块,从而缓解 VLN-CE 中的碰撞问题。

方法介绍

由于 VLN-CE 中碰撞情形复杂,为了便于分析,本文通过大量实验将可能出现的碰撞分为三种类型,并分别讨论不同类型的碰撞产生的原因以及对导航性能的影响。 

2.1 VLN-CE中的碰撞分类

为了提高智能体在 VLN-CE 中的导航性能,提高其在复杂连续环境中的适应能力,本文首先对 VLN-CE 中常见碰撞进行分类。 

1. 航路点碰撞(waypoint collision):当预测的候选航路点位于障碍物区域(如衣柜、墙壁或床上方)内时,就会发生此类碰撞。

2. 导航碰撞(navigation collision):被定义为当智能体在向下一个航路点移动时遇到扶手、门、桌子等障碍物时发生的碰撞。

3. 动态碰撞(dynamic collision):发生在智能体动态运动过程中,由于安全或隐私问题,用户设置子目标航路点为不可导航状态。值得注意的是,本文考虑了 VLN-CE 现有数据集中没有出现的“动态碰撞”,以便全面捕捉现实世界应用中的所有潜在碰撞情况。 

通过在 R2R-CE 数据集未见环境中进行验证,结果表明航路点碰撞和导航碰撞在现有方法中都经常发生,此外,为了模拟真实世界场景中的“动态碰撞”情况,本文以一定概率将智能体选择的下一航路点设置为不可导航状态。在考虑动态碰撞的情况下,现有算法成功率均有所下降。为针对性地解决这些碰撞带来的性能损失问题,本文提出 Safe-VLN 框架,如图 2 所示,Safe-VLN 包含对航路点预测器以及导航规划模块的改进。

▲ 图2. Safe-VLN算法流程图

2.2 Safe-VLN避障框架

为了有针对性地解决上述碰撞类型,本文针对 VLN-CE 通用框架进行改进,提出 Safe-VLN。其中,VLN-CE 任务的通用框架分为三个模块:航路点预测器模块(waypoint predictor module)、导航规划模块(navigation planning module)以及底层动作控制模块(low-level control module),Safe-VLN 在航路点预测器模块加入障碍占比掩码以减少航路点碰撞,在导航规划模块采用“重新选择”策略以缓解导航碰撞情况。

1. 针对航路点碰撞的障碍占比掩码设计:Safe-VLN 的第一个模块旨在减轻航路点碰撞。通过航路点预测器获得候选航路点概率热图 。概率热图 表示以智能体为中心的 3 米半径内预测候选航路点的概率, 获得方法如下所示:

其中 示基于 Transformer 的航路点预测器,用于在连续环境中预测当前位置周围可导航的区域   分别是全景视野下深度和角度特征。
随后,使用非最大值抑制 (Non-Maximum Suppression, NMS) 技术从热图 中采样 个候选航路点,航路点位置由集 示。基于 MP3D 数据集中的导航图训练上述航路点预测器,由于没有考虑周围的障碍物,预测的航路点可能位于障碍物区域内,导致航路点碰撞发生。
为了解决这个问题,本文首先使用深度信息生成模拟的二维激光占比掩码。其中占比掩码 与概率热图 具有相同的维度 ,可以通过下式获得:



其中, 的障碍物情况是通过模拟的二维激光信息得到的,将其与 相加后可得到调整后的概率热图。如图 3 所示,以智能体为中心的占比掩码 可提供周围环境的测距信息。通过将占比掩码合并到预测的概率热图 中,可以降低 中碰撞区域内的预测概率,从而获得调整后的概率热图 ,如下式所示:
其中, 是正则化操作,确保调整后的概率热图上的所有概率值之和等于 是控制占比掩码权重的超参数。

▲ 图3. 使用障碍占比掩码示意图

2. 针对导航碰撞的“重新选择”导航器:除了航路点碰撞之外,智能体还经常遇到导航碰撞或动态碰撞。为了解决这两种类型的碰撞,本文设计“重新选择”导航器作为 Safe-VLN 的第二个模块,通过调整 VLN-CE 框架中的导航规划模块,以预测最优及次优航路点来获得备选方案。基于此,当智能体被困于障碍区域时,能够重新选择作为备选方案的次优航路点,这不仅提高了其逃离障碍区域的可能性,还防止智能体为了避障与最终目标位置的显著偏离。


与 ETPNav [2] 类似,为了实现导航的长期规划,每一轮任务的历史路径都用图来描述:。这 示节点集,包括已访问节点、当前节点和已观察但未访问的节点。特殊节点 与所有其他节点互连,象征着动作“停止”。 表示所有边元素 的集合,其中 包含了两个相邻节点 之间的相对欧几里得距离。导航图 每个 时刻的节点更新。
对于每个节点 来说,其编码表示为 ,其中 表示连接操作, 表示当前智能体的位姿编码以及 表示时间步长的编码。
每个节点 的视觉语义编码 可表示为 ,其中, 是一个跨模态匹配模型,包含多层 Transformer 网络,用于对图像特征与指令特征进行匹配融合。
接着,导航规划模型 中的每一个节点生成得 反映了模型对选择每个节点的概率偏好已访问节点和当前节点的分数被屏蔽,以防止不必要的重复操作。
最后,基于输出分数 ,智能体以贪婪的方式选择下一个航路点。如果选择了 ,智能体将在其当前位置停止移动,从而终止当前任务。
利用损失函数训练模型, 的训练目标是最大化最优航路点的分数,其中,最优航路点指的是具有离目标位置最短 Dijkstra 距离的航路点。为了选择合适的替代航路点,具有离目标位置第二短 Dijkstra 距离的次优航路点也被考虑在训练目标中,如下所示:


其中, 分别是距离目标的最短和第二短距离的航路点。 分别是时间步长 时刻的图和网络参数。选择 的概率分别是 是用于在最优和次优动作之间进行权衡的超参数。当发生碰撞时智能体可以重新选择次优导航节点。此时导航策略通过训练可以给出次优导航节点,这样在最优导航节点无法到达时,智能体可以选择另一个恰当的节点,在躲避障碍区域的同时,不会偏离目标路径过远。


实验结果

为了研究所提出的模型性能,五个评估指标被用来评估在见过和未见环境中模型的训练效果,评估后选出的性能较好模型进一步在未见环境中的测试集上对性能指标进行进一步测试。

具体来说,这些指标是为路径长度(Trajectory Length,TL)、导航误差(Navigation Errors,NE)、Oracle 成功率(Oracle Success Rates,OSR)、成功率(Success Rates,SR)以及通过路径长度加权考虑的成功率(Success rates optimized by Path Length,SPL)。

通过在最先进的 VLN-CE 方法上验证测试所提出的方法的有效性,如表1所示,与性能较好的 VLN 基线 ETPNav 相比,导航性能的提升是显著的,例如未见环境中的验证结果中导航误差降低了 0.23m,成功率提升了 3%;对于测试集来说,导航误差下降了 0.11m,成功率提升了 1%。


▲ 表1. R2R-CE数据集上的性能对比


为了说明在涉及航路点碰撞和动态碰撞的场景中重新选择导航器的有效性,我们在图 4 中给出了一个例子。如图 4(a)所示,智能体最初选择位于不可导航的泳池中的航路点作为子目标。随后,“重新选择”导航器调整其子目标航路点到可导航区域(如图 4(b)所示),并成功到达目标(如图 4(c)-(d)所示)。

此外,如图 4(e)所示,为了避免动态障碍,智能体选择一条替代路径来到达目标(如图 4(e)-(f)所示)。此示例表明,使用重新选择导航器,VLN-CE 中的智能体可以成功有效地避免连续环境中的障碍。

▲ 图4. 基于Safe-VLN的导航示例



总结

本文对 VLN-CE 领域的碰撞问题进行了全面的分析,奠定了 VLN 在实际应用中部署的基础。我们研究了 VLN-CE 及其碰撞场景对导航性能产生的影响,随后提出了一个名为 Safe-VLN 的避障框架。

所提出的方法使用了占用掩码来引导航路点预测器生成碰撞区域外的航路点。此外,Safe-VLN 采用了重新选择导航器以鼓励智能体灵活地调整行动,从而防止智能体被困在碰撞区域。计划在未来工作中将所提出的 Safe-VLN 应用于真实世界中并进行避障评估与分析。

参考文献

[1] J. Krantz et al., “Beyond the nav-graph: Vision-and-language navigation in continuous environments,” in Proc. of ECCV. Springer, 2020, pp. 104–120. 

[2] D. An et al., “ETPNav: Evolving topological planning for visionlanguage navigation in continuous environments,” arxiv, pp. 1–14, 2023. 

[3] J. Krantz et al., “Waypoint models for instruction-guided navigation in continuous environments,” in Proc. of ICCV, 2021, pp. 15 162–15 171.

[4] M. Z. Irshad et al., “Semantically-aware spatio-temporal reasoning agent for vision-and-language navigation in continuous environments,” in Proc. of ICPR. IEEE, 2022, pp. 4065–4071. 

[5] J. Krantz et al., “Sim-2-sim transfer for vision-and-language navigation in continuous environments,” in Proc. of ECCV. Springer, 2022, pp. 588–603. 

[6] Y. Hong et al., “Bridging the gap between learning in discrete and continuous environments for vision-and-language navigation,” in Proc. of CVPR, 2022, pp. 15 439–15 449. 

[7] Z. Wang et al., “GridMM: Grid memory map for vision-and-language navigation,” in Proc. of ICCV, 2023, pp. 15 625–15 636.



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
SparingVision:背靠巴黎视觉研究所,核心管线或可拯救超200万患者CVPR 2024 | DeiT全新升级!DeiT-LT:针对长尾数据的改进模型【长篇小说】县委副书记(058)CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024美股基本面 - 2024_03_01 * 晚报 * 收盘:标普与纳指再创新高 标普500指数首次收在5100点之上。周五美国W一个SQL任务的一生英国语言班即将开启,短期语言班住哪里?快来看看语言班同学都住哪!今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准搞定视频任务泛化,VLM 还有机会吗?视觉语音交互毫无延迟,都成精了居然还不是GPT-5?视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架自然世界历播报NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)【洛杉矶房产】南加州Walnut核桃市4卧独栋别墅【2024.05.23】ASCO2024|荣昌生物公布MSLN靶向ADC药物RC88 I/II期临床研究数据新大陆 (1)【诚邀投稿】2024 IEEE国际电能转换系统与控制会议(IEEE IEECSC 2024)2024 多伦多国际车展(I)4K图像理解轻松拿捏!IXC2-4KHD:开创性的大型视觉语言模型!熵泱——第三十一章IRS account use id.me to very the identity. Is it safe?西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI突发!Fed 今年(2024)不会降息。花街预测驻美大使馆:针对老年人、外籍来华人员等群体,消费支付将有新变化2024 Toronto International Auto Show ( I )语音与语言处理技术大咖齐聚,IEEE SLT 2024开启征稿!领导力要务:在不断变化的环境中,成倍放大工程效率全英语言班即将开启,快来看看这些便宜的语言班房源吧,寻找一个语言班搭子!打破传统叙事逻辑,构建基于原子化任务的人机交互校外抗议者涌入校园煽动骚乱!犹太校友警告哥大校长:针对学生的暴力随时可能发生视觉语言模型导论:这篇论文能成为你进军VLM的第一步英国语言班开启,快来看看12周语言、8周语言班的同学住哪里!简直是地狱!澳洲每四天就有一名女性被杀!各大城市爆发大规模抗议,艾博年出席集会,表示:针对女性施暴是种流行病...外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生如何在日益恶化的申请环境中突围?(竞赛篇)ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了AI重新定义导航,弯道会车无灯路口提前预警,网友:导航成精了!2024 Chinese New Year's DinnerCVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。