Redian新闻
>
清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统

清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【自动驾驶和Transformer】交流群

作者:穆尧(源:知乎,已授权)| 编辑:CVer公众号

https://zhuanlan.zhihu.com/p/659675174

在CVer微信公众号后台回复:MPC,可以下载本论文pdf,学起来!

面对复杂多变的交通场景,基于学习的方法已成为了实现高级别自动驾驶系统的主流方案。然而,基于学习的自动驾驶系统仍面临以下挑战:

  • 对复杂的规则和奖励函数设计的需求使其在理解交通法规等高级信息上存在困难。

  • 受限于数据量和采样效率,处理罕见事件是其面临的一大挑战。

  • 由于神经网络的黑盒特性,现有基于学习的自动驾驶系统缺乏良好的可解释性。

针对以上问题,我们提出将大语言模型(LLM)作为自动驾驶系统的决策核心,利用LLM像人一样思考的能力,将人类常识和推理能力作为自动驾驶系统决策的指导。同时,我们开发了将LLM给出的高层决策转化为具体驾驶行为的方法,将高层决策与底层控制器无缝结合。

在CVer微信公众号后台回复:MPC,可以下载本论文pdf,学起来!

LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving
论文:https://arxiv.org/abs/2310.03026
项目网站:https://sites.google.com/view/llm-mpc
LanguageMPC:将大语言模型与模型预测控制无缝结合

LanguageMPC首次将LLM应用于驾驶场景,并设计了将文字形式高层决策转化为可操作驾驶行为的方法。我们定量的证明了LanguageMPC在路口和环岛等复杂交通场景中均优于现有基于学习和基于优化的自动驾驶系统。同时,我们还展示了LanguageMPC在应对多车协同控制、文字辅助驾驶等复杂任务时的强大性能。

LanguageMPC的技术核心在于以下两点:

  • 专用于驾驶场景的思维链框架。我们使用Langchain管理LLM,通过设计初始prompt和多种工具,指导LLM依次完成对周车的意图判断和注意力分配、判断自车所处情景、给出驾驶动作指引等任务。我们将整个驾驶任务划分为多个子任务,并重新设计了场景信息组织方式,通过确保信息的简洁性来提升LLM的推理能力。

  • 高层决策与模型预测控制衔接。我们设计了将文字形式的高层决策转化为可操作的驾驶行为的方法。具体而言,我们根据LLM的选择来重计算观测矩阵,调整MPC的注意力分配;调整惩罚函数的参数矩阵,使用LLM给出的情景判断指导MPC;将LLM的驾驶运动指引转化为运动偏置,直接调整MPC的驾驶行为。

实验结果

  • 定量实验

我们的方法在几乎所有指标上都有明显提升,并且显著降低了碰撞几率和总体Cost。

  • 路口无保护左转

在路口左转时,LanguageMPC能根据交通规则让行对向直行车辆。

  • 路口直行和变道超车

路口直行时,LanguageMPC能遵守路口内不超车的规则,并在到达车道内后迅速超车。

  • 多车联合控制:窄路会车

LanguageMPC通过信息汇总和分别控制,实现了高效的多车联合控制,完成窄路会车。

  • 调控驾驶风格

LanguageMPC能根据文字指引,简单直接的调控驾驶风格。

  • 文字指导驾驶

LanguageMPC在文字指引下避开了维修路段。

LanguageMPC在关键指标上大大优于现有方法,并能处理复杂的真实世界驾驶场景,可在各种驾驶场景中实现与人类类似的性能,其推理能力和可解释性有助于克服当前基于学习的驾驶辅助系统在适应性和透明度方面的局限性。

在CVer微信公众号后台回复:MPC,可以下载本论文pdf,学起来!

点击进入—>【自动驾驶和Transformer】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

自动驾驶和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-自动驾驶或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如自动驾驶或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
orchid & poppy港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型学术成果 | EMNLP2023:MMEdit——如何编辑多模态大语言模型?Hugging Face 大语言模型优化技术OWL🦉:云智慧智能研究院联合北航提出智能运维(AIOps)大语言模型在意大利研读美食的一年(110)river spree亚马逊试用新型类人机器人,有胳膊有腿可抓握ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成清华大学:2023大语言模型综合性能评估报告智华科技,智驾系统累计量产100+车型|金球奖入围公示华为提出Sorted LLaMA:SoFT代替SFT,训练多合一大语言模型【2023坛庆】《红马鞍》翻唱:爱晚亭&丽莎 音频全民K歌录制,视频来自网络素材。苹果正利用大语言模型改造 Siri / Copilot 或将引入 Win 10 系统 / 南航称系统bug所售低价票有效大语言模型真能“理解”语言吗?EMNLP 2023 | 用于开放域多跳推理的大语言模型的自我提示思想链武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!MIT惊人再证大语言模型是世界模型!LLM能分清真理和谎言,还能被人类洗脑大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友在意大利研读美食的一年(109)柏林街景与城市次序视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架滨海湾的“白莲花” ——世界首个艺术科学相结合的博物馆我们的一年(3)堪萨斯之情深缘浅【2023坛庆】献礼收购Arriver,PK英伟达?高通中国招募智驾系统软件团队香花又开文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型重磅!智驾系统方案「国产化率」突破30%!自主品牌强力支撑用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单请子坛专家帮忙看一下这几个学校 BC, Turfs, Tulane, W&M, NEU专攻芯片设计,英伟达推出定制版大语言模型ChipNeMo!在意大利研读美食的一年(108)一组有意思的老照片从108篇顶会论文看大语言模型时代的推荐系统MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间EMNLP 2023 | MMEdit——如何编辑多模态大语言模型?解锁通用听觉人工智能!清华电子系联合火山语音,开源全新认知导向听觉大语言模型LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」从大语言模型到智能Agents哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展三木&水晶 ~~星星住进你眼睛~~
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。