Redian新闻
>
纯视觉+端到端,虚晃一枪?

纯视觉+端到端,虚晃一枪?

汽车

2022年10月,特斯拉开始在北美、中东、欧洲等部分市场取消在售Model 3和Model Y两款车型的超声波传感器,再加上此前已经取消的毫米波雷达,正式在全球开启纯视觉高阶智驾“Tesla Vision”。


今年初,特斯拉的FSD Beta 12.3.2在美国实现OTA升级,正式释放基于纯视觉的Autopark自动泊车功能,并且该公司计划在下个月正式发布基于纯视觉的高阶泊车-智能召唤功能。


这被视为特斯拉迈向真正全场景(高低速行泊)纯视觉智驾时代的关键一步,也为整个汽车智驾行业树立了新的追赶目标。



在这背后,还有从2022年开始启用的全新端到端感知决策框架。包括,基于占用网络和车道检测的感知增强,以及由此延伸的决策规划算法重构,首次去除人工规则实现决策规划的代码。


而在硬件层面,真正纯视觉架构的好处,也有自身显而易见的优势。


比如,合并来自同一种传感器的数据比不同类型的传感器更有效和简化。对于后者,算法层面还需要匹配异构输入,以便系统能够实现交叉验证。


原因是,不同类型的传感器,由于物理形态的差异导致输入数据的不同,甚至可能带来“冲突”,这对于关键安全系统来说是潜在风险。


比如,去年理想L9曾被曝出存在部分场景感知的幽灵现象(误报),而官方给出的解释是:激光雷达和视觉摄像头融合感知,受限于当前市场上传感器识别能力的局限性,车辆在某些场景下会出现显示异常。


而从成本角度来看,去除毫米波雷达和超声波传感器,至少可以降低两三百美元的成本。同时,视觉技术的迭代升级,还进一步降低了对激光雷达的需求,这又是一笔大几百美元的潜在成本。


尽管此前特斯拉已经开始在尝试导入4D成像雷达,不过,对于L3级以下的高速、城区NOA来说,由于驾驶员仍是第一责任人,这显然并非刚需。


当然,纯视觉+端到端的背后,还有一个核心的要素:大量的实际道路数据采集+高效的后端数据训练。前者需要车企销售足够多的标配感知硬件车型,后者则是投入巨额资金构建超算中心(当然也可以借助第三方服务)。


在业内大部分人看来,如果真正实现端到端,可以大幅提升数据的利用规模和效率,解决效率低且泛化性差(尤其是城区NOA)的痛点。


同时,端到端可以进一步优化实时高精地图生成模型,而后者是几乎没有车企在寻求高阶智驾降本道路上都不可回避的成本问题。


而在中国市场,特斯拉的追随者不少。不过,到目前为止,真正实现纯视觉+端到端方案落地的,几乎没有。


以最早布局全栈智驾自研的小鹏为例,2022年首次发布BEV+Transformer技术框架的XNET架构,去年该系统升级为XNet2.0,做到了动态BEV、静态BEV和占用网络三网合一。


在今年初的一次对外活动上,小鹏汽车曾对外透露,最快今年底之前实现端到端大模型全面上车。此外,今年该公司的目标还要实现自动驾驶的BOM成本下降超50%。


不过,对于控制与规划,此前,原小鹏自动驾驶VP吴新宙曾透露,“端到端的控制,我们肯定不会上大模型。但,规划会开始用,但也是作为原有模型的增量部分。”


此外,在传感器配置上,实现真正的纯视觉,似乎还有难度。此前,小鹏为2024年制定的智驾目标是,“全场景、轻地图、轻雷达”。原因是,“依靠纯视觉方案还是比较困难的,”何小鹏直言。


而作为目前国内具备L4级自动驾驶最大车队规模、数据积累(超过7000万公里的Robotaxi采集的原始数据)的百度Apollo,也寻求在极越01突破技术量产的制高点。


极越表述,这套“BEV+OCC+Transformer”的纯视觉高阶智驾系统,在对障碍物的识别上,可以做到比肩甚至超越激光雷达的精度。


不过,这套所谓的纯视觉方案,在车端依然还是在11V(摄像头)基础上搭载了5颗毫米波雷达以及12颗超声波雷达。


而在昨天,随着小米首款车型的上市,在发布会上,雷军也喊出了纯视觉方案。“全系标配智能辅助驾驶,上市即交付高速NOA。”


不过,从实际传感器配置上,依然搭载了毫米波雷达。此外,自研全球首个可量产端到端大模型,目前也只是实现5cm精度的极窄库位泊入和23km/h巡航的代客泊车。


此外,小米自研的自适应变焦BEV技术、「超分辨率」占用网络技术等加持之下,雷军喊出的「全国都能用的城市领航」,2024年目标也仅仅是覆盖全国主要城市。


而之所以到目前为止,除特斯拉之外的其他车企都不愿意放弃融合感知或者说备份冗余,原因也很明确,谁都无法保证100%安全。


“激光雷达最重要的是城市场景下各种障碍物的识别能力,因为那些障碍物是各种各样的,甚至是不可枚举的,视觉解决有难度,”吴新宙表示。


不过,从目前车企的智驾配置来看,除极个别采取全系统一硬件配置(大部分30万元以上车型),一旦进入20万元区间,差别化减配已经是大趋势。


以小米SU7为例,Polit Pro和Max,除了算力芯片降级,前者还少了两个后向角雷达,一个激光雷达。「对于从不打价格战,上来直接卖成本价」的小米来说,显然也无法迈过「智驾陷阱」。



从目前来看,高速NOA配置大概率会趋向于单颗前向雷达,继续减配两颗后向角雷达。实际上,去年车企降本压力持续放大,已经让曾经的5R配置减配为3R。


高工智能汽车研究院监测数据显示,2023年中国市场(不含进出口)乘用车前装标配毫米波雷达(不含舱内)2217.93万颗,同比仅增长23.54%,相比于上年同期增速下滑近8个百分点。


而在激光雷达部分,目前几乎肯定的是,并不是高速NOA的刚需。这意味着,从基础L2到L2+的进化,激光雷达几乎没有任何市场红利。


因为,从技术开发层面来说,还存在不确定性。此前,极氪智能驾驶负责人陈奇向媒体透露,“不采用激光雷达的方案,天花板也未必很低,这要看如何去做——做得好,天花板一样可以很高。”


按照陈奇的介绍,目前,关于激光雷达版和无激光雷达的纯视觉版本,极氪的两套方案都在同步开发。而目前,智驾堆叠的成本,也是车企最大的心病之一。


高工智能汽车研究院监测数据显示,2024年1-2月,中国市场(不含进出口)乘用车前装标配激光雷达新车交付量同比增长124.65%,但由于基数增加,增速显然已经大幅放缓。


此外,在月度环比增速方面,在去年第四季度出现大幅度拉升后,今年前两个月已经出现下滑迹象。除了终端车市销量影响,差异化高低配也是关键因素。


而随着纯视觉+端到端的技术进入快速迭代期、以及新车价格战延续,不排除现有的硬件尤其是传感器架构配置会出现重大变化。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一锤降维!解密OpenAI超级视频模型Sora技术报告,虚拟世界涌现了短篇小说 --《迟来的道歉迟来的涟漪》刚刚,华泰证券打响25秋招第一枪!这类留学生身价暴涨...安踏靠他打响出海第一枪|焦点分析端到端自动驾驶方案量产车,今年开卖“绝不让步!”德州跟联邦彻底杠上了!25个州支持德州,第一枪已经打响Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型端到端纯视觉!OpenAI押注的人形机器人献艺拜年了NYPD查非法停车,被一枪毙命,嫌犯曾被捕21次端到端模型:当AI开始掌握驾驶艺术晚点独家|元戎成为长城第二供应商,靠激进的端到端投入西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI房东凯(10)推广 | 最高可达1500万元!这所985优势学院,虚位以待!为了避免AI行为不端,有必要为其注入人类价值进击的“端到端”,与迎头赶上的中国企业一原始部落,女人结婚要割掉鼻子顶端,塞入木头,没有鼻塞的女孩,一辈子嫁不出去联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型熵泱——第二章国内首家!端到端智驾系统车型2024年量产广汽发布全固态电池与无图纯视觉智驾;腾讯会议发布国内首个裸眼3D视频会议解决方案丨智能制造日报《繁花》看尽,虚拟制片照进现实打响藤校第一枪!这个学校宣布永久恢复“美国高考”顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型Tinder上能买枪?犯罪分子利用社交平台贩卖枪支纽约律所涉嫌欺诈数百名无证移民,虚假陈述导致申请被拒并驱逐出境今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent外国人来了有美酒,外地人来了有猎枪?华为官宣P系列升级为Pura,传特斯拉拟新一轮裁员,蔚来造车资质获批,苹果首批AI功能或运行于设备端,这就是今天的其他大新闻!溪深日落滩影视制作车落地,虚拟拍摄扩大应用规模,优酷“技术+”进行时Robert Langer加入、PayPal联创支持,英国初创以端到端平台打造「一体化CRO」产品,欲在现有监管框架内实行创新为什么说婚姻是一桩生意-----现在看来是一个错误的结论打响2024第一枪!甘肃突然爆了,镜头下这一幕我忍不住了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。