Redian新闻
>
“大大震惊”一位CTO:GPT-4V自动驾驶五连测

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

公众号新闻
编者按:

GPT-4V的到来,给AI又带来了无限可能。近日,图森中国CTO王乃岩在知乎发表的《GPT-4V在自动驾驶中初探》引发了不少关注。在多项测试之后,他本人表示“大大震惊了我们”。那么具体效果如何?我们一同来看下。
注:本文经授权转载。

万众瞩目之下,今天GPT4终于推送了vision相关的功能。

今天下午抓紧和小伙伴一起测试了一下GPT对于图像感知的能力,虽有预期,但是还是大大震惊了我们。

核心观点:

我认为自动驾驶中和语义相关的问题应该大模型都已经解决得很好了,但是大模型的可信性和空间感知能力方面仍然不尽如人意。

解决一些所谓和效率相关的corner case应该是绰绰有余,但是想完全依赖大模型去独立完成驾驶保证安全性仍然十分遥远。

Example1: 路上出现了一些未知障碍物

GPT4的描述

准确的部分:检测到了3辆卡车,前车车牌号基本正确(有汉字就忽略吧),天气和环境正确,在没有提示的情况下准确识别到了前方的未知障碍物

不准确的部分:第三辆卡车的位置左右不分,第二辆卡车头顶的文字瞎猜了一个(因为分辨率不足?)。

这还不够,我们继续给一点提示,去问这个物体是什么,是不是可以压过去。

Impressive!类似的场景测试了多个,对于未知障碍物的表现可以说非常惊人了。

Example2: 路面积水的理解

没有提示能自动识别到标牌这个应该是基操了,我们继续给一些hint。

再次被震惊了。。。能自动讲出来卡车背后的雾气,也主动提到了水坑,但是再一次把方向说成了左侧。。。感觉这里可能需要一些prompt engineering能更好的让GPT输出位置和方向。

Example3:有车辆掉头时直接撞上了护栏

第一帧输入进去,因为没有时序信息,只是将右侧的卡车当做是停靠的了。于是再来一帧:

已经可以自动讲出,这辆撞破了护栏,悬停在公路边缘,太棒了。。。但是反而看上去更容易的道路标志出现了错误。。。只能说,这很大模型了,它永远能震惊你也永远不知道什么时候能蠢哭你。。。再来一帧:

这次,直接讲到了路面上的碎片,再次赞叹。。。只不过有一次把路上的箭头说错了。。。总体而言,这个场景中需要特别关注的信息都有覆盖,道路标志这种问题,瑕不掩瑜吧。

Example4: 来一个搞笑的

只能说非常到位了,相比之下之前看上去无比困难的“有个人冲着你挥了挥手”这样的case就像小儿科一样,语义上的corner case可解。

Example5 来一个名场面。。。配送车误入新修路

开始比较保守,并没有直接猜测原因,给了多种猜测,这个也倒是符合alignment的目标。

使用CoT之后问题发现问题是在于并不了解这辆车是个自动驾驶车辆,故通过prompt给出这个信息能给出比较准确的信息。

最后通过一堆prompt,能够输出新铺设沥青,不适合驾驶这样的结论。最终结果来说还是OK,但是过程比较曲折,需要比较多的prompt engineering,要好好设计。

这个原因可能也是因为不是第一视角的图片,只能通过第三视角去推测。所以这个例子并不十分精确。

总结

快速的一些尝试已经完全证明了GPT4V的强大与泛化性能,适当的prompt应当可以完全发挥出GPT4V的实力。

解决语义上的corner case应该非常可期,但幻觉的问题会仍然困扰着一些和安全相关场景中的应用。

非常exciting,个人认为合理使用这样的大模型可以大大加快L4乃至L5自动驾驶的发展,然而是否LLM一定是要直接开车?尤其是端到端开车,仍然是一个值得商榷的问题。

参考链接:
https://zhuanlan.zhihu.com/p/660940512

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了弯道超车的悲剧媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA微软发布 166 页 GPT-4V 测评报告,ChatGPT 的高阶用法都在这|Hunt Good 周报挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩ChatGPT「看图说话」大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相强强联手!滴滴自动驾驶融资11亿元,这家世界五百强“大手笔”投了试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完特斯拉:自动驾驶“ChatGPT时刻”即将到来大大大大大黑洞或揭示“黑洞种子”的由来OpenAI CEO:GPT-5在开发中,拟进一步向微软寻求资金支持挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标ChatGPT大大大升级,这回谁要慌了?马斯克直播特斯拉自动驾驶;居然之家创始人:我把包括CTO在内的IT部门全裁了;首批8个大模型正式上线 | AI一周资讯中国“最大”的6所大学,到底有多大大大大大大刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!微软深夜放大招:GPT-4 、DALL·E 3、GPTs免费用,自研大模型专用AI芯片明晚大大大大大件事!!!!chat gpt 怎么上不去了? 彻底罢工了机场高速一辆SUV自燃,一群车主下车救援!被家长抵制到上热搜的预制菜,却是每一位CBD打工人餐盘里的香饽饽?自动驾驶公司Cruise,被美国政府吊销了无人驾驶汽车资格。。。吹尽黄沙不见金(七十九):独角仙日本华人八卦山鹰颂现场直击OpenAI开发者大会:GPT-4 Turbo、用户自定义GPT、GPT商店,一切都是硅谷新王的架势CVPR上的新顶流:BEV自动驾驶感知新范式智能周报|Meta和Google把对标GPT-4提上日程;英伟达在AI领域有20笔投资;英国初创公司推出能解释行为的自动驾驶系统比尔盖茨:GPT-5不会比GPT-4好多少,生成式AI已达到极限京东要卖特斯拉汽车,TikTok第二大市场受挫,奔驰美国推出L3级自动驾驶,ChatGPT可浏览互联网,这就是今天的其他大新闻!时间的湾 1AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!LeCun和Jim Fan震惊了一路向北,斯瓦巴德。北纬78度大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述GPT turbo 看了没?!这真是大批失业人员在路上。微软写了份GPT-4V说明书:166页讲解又全又详细,提示词demo示例一应俱全 | 附下载
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。