特斯拉视觉路线再一次站在了悬崖边上。
7 月 14 日,特斯拉人工智能负责人 Andrej Karpathy 宣布离职,消息一出,业内一片哗然。
作为自动驾驶行业的灵魂人物,Karpathy 于 2017 年被马斯克从 OpenAI 挖角到特斯拉,担任人工智能和 Autopilot 视觉总监。
五年的时间,他帮助特斯拉从 0 到 1 搭建起自动驾驶所有基础设施,并成功推出 NOA、FSD Beta,就连「狂人」马斯克也为之折服,曾夸奖其是全世界最顶级的 AI 领袖。
这一说法稍显肉麻,却不失公道。
Karpathy 在业内拥有相当高的声望,在每年定期举办的 CVPR、特斯拉 AI Day 上,他是绝对的主角,每次关于自动驾驶最新技术的分享,往往引来大批行业人士驻足观看,会上提出的「新概念」、「新名词」用不了多长时间,就会成为造车界的「口头禅」,并被提炼为各家的核心技术亮点。
因此,在这样一位重磅人物突然宣布离职的时候,连外人都不免为之惋惜。理想汽车 AI 负责人王轶伦在个人朋友圈表示,他的离开是业界的损失。而对于在纯视觉道路上「风雨飘摇」的特斯拉而言,Karpathy 的离开,似乎不只是「损失」这么简单。
01
任职特斯拉最久的 AI 高管,
依然逃不过「休假定律」
现在往回看,Andrej Karpathy 的离开早有迹象。
今年 3 月,Karpathy 在社交媒体上发文称在特斯拉任职近 5 年时间后,自己即将开启 4 个月的休假,当时便有人猜测,这会不会是 Karpathy 将要离职的信号。
毕竟,特斯拉过往高管在离职之前的常规项目之一便是休假。
2018 年,特斯拉前工程高级副总裁 Doug Field 请长假「与家人共度时光」,当时也是引起一阵热议,为此特斯拉保证,Doug Field 不会离开公司,结果几个月后,他便宣布不会从休假中回来。
这一次,同样的剧情再次上演。
Karpathy 在休假之初强调「这段时间将用来专注提升自己的技术优势,以及训练神经网络」,为了打消外界疑虑,他还补充道:「会想念特斯拉的机器人以及 Dojo 超算集群,甚至还没离开就迫不及待想见到它们了。」
结果,Karpathy 还是离开了。
「在过去 5 年时间里,我很荣幸能帮助特斯拉实现目标,离开是一个艰难的决定……」7 月 14 日,Karpathy 在推文中宣布了这一决定。马斯克也很及时地送上祝福:「感谢你为特斯拉所做的一切,十分荣幸能和你共事。」
时间回到 5 年前,也就是 2017 年,Karpathy 接受马斯克邀请,从 OpenAI 跳槽,加入特斯拉。
彼时,特斯拉身陷动荡之中,一方面,因发生在 2016 年 5 月的特斯拉自动驾驶致死案,刚和旧供应商 Mobileye 取消合作不久;
另一方面,和新供应商英伟达的磨合也不算顺利,关于 Autopilot 硬件 2.0 能否用来实现自动驾驶,双方各执一词。
这些拉扯背后,透露出马斯克对于「现状」的不满意——自动驾驶功能迟迟没能上车。特斯拉迫切需要一个救世主,凡难以受此大任的高管,选择被动或主动离职。
于是 2017 年,Autopilot 前主管 Anderson 首先宣告和特斯拉「分手」,一个月后,Chris Lattner 接手 Autopilot 团队,不到半年,Chris 辞职,并留下一句话:「特斯拉一点也不适合我。」
这时候,Karpathy 进入到马斯克的视野。
早在 OpenAI,一家专注于人工智能研究的非营利组织中,马斯克便已经结识 Karpathy,前者是 OpenAI 的发起人之一,后者是 OpenAI 的创始成员兼研究科学家。
有媒体报道,马斯克曾放话,很多人只把 Karpathy 当做优秀的 AI 视觉科学家,但他认为,Karpathy 会是全世界最顶级的 AI 领袖。
于是,2017 年 6 月,马斯克从内部挖角,邀请 Karpathy 担任 Autopilot 主管,自此开启了特斯拉自动驾驶的「黄金时代」。从时间上来说,Karpathy 称得上是任职特斯拉最久的 AI 高管,尽管在他入职之初,曾开玩笑称「这是一份平均只有六个月时长的新工作」,想花点时间研究过后再让别人接手,但是从最终结果来看,Karpathy 还是干满了五年,比任何人都长。在 Pieter Abbeel 主持的 The Robot Brains Podcast 节目中,Karpathy 曾分享自己的工作感受。「事实上,我喜欢沉浸在其中的感觉,也很有动力去尽快地创造出不一样的东西。」Karpathy 对于特斯拉的影响不言而喻,不过他在离职推文中,只简略地总结道,「帮助 Autopilot 从仅仅能完成车道保持的功能发展到可以在城区实现自动驾驶。」理想汽车 AI 负责人王轶伦看后「打抱不平」,在朋友圈为 Karpathy 补充了他对于行业的贡献:「他在 AI Day 和 CVPR Workshop 上的多次公开分享让大家了解到了大模型、BEV、数据闭环、影子模式这些概念,推动了行业的转型和进步。」回到 2019 年,Karpathy 作为 Tesla AI 项目总监首次亮相,一出场便火力全开,展现出非凡的专业思考,他在会上直接 diss 了在自动驾驶领域备受推崇的激光雷达,「你开车是因为眼睛看到了路况,而不是靠双眼发射激光。」在 Karpathy 看来,既然人工智能是代替人来完成自动驾驶,那么所需的传感器,就应当是像人眼一样发挥纯视觉功能的摄像头。这一新奇观点刷新了所有人的认知,从这时起,Karpathy 往后在大会上的主题演讲,都受到极大的关注,人们紧盯着这位行业新秀的一举一动,试图从他的发言中,捕捉到未来自动驾驶技术的走向。2020 年,在 ScaledML2020(Scaled Machine Learning Conference)会议上,Karpathy 介绍了如何用摄像头完成三维世界的「感知」。简单来说,特斯拉通过调用 5 个方向的摄像头,将捕获的 2D 图像通过建模器(之前是「Occupency Tracker」,后来变为神经网络)「拼接」转化为 3D 素材,最后自上而下投影至 Z+ 平面,如鸟瞰图一般构建汽车周围的道路环境,以供自动驾驶决策参考。这种基于神经网络下的升维视觉,特斯拉称之为「Bird's Eye View」,也就是后来被自动驾驶行业广泛推崇的「BEV」。值得注意的是,在「拼接」3D 图像时,还要将各个视角相应素材的时间轴对齐,进行二次连续拼接,看上去就是「3D + 时间轴」,达到移步换景的「4D 视觉」。从图像级处理到视频级处理的跃迁,让 Autopilot 固有的软件和训练网络难以胜任。为此,同年 8 月,Karpathy 领导的 Autopilot 团队决定对软件的底层代码进行重写,并重构深度神经网络。另一边,从 2D 到 4D 的转换,造成数据集指数级增长,为应对海量数据处理需求,特斯拉 Autopilot 团队提到将推出全新的用于神经网络(NN)训练的超级计算机 Dojo。Dojo 来源于日语,意为「道场」,特斯拉以此命名,旨在超越日本 fukagu(富岳),成为世界第一超算。2021 年,CVPR2021(计算机视觉顶级峰会)上,Karpathy 公布了 Dojo Prototype(原型机),并在演讲中表示,有了超算的辅助,视觉自动驾驶将比人类驾驶员更加可靠。「即使是优秀的驾驶员,其快速反应时间也要 250ms,很多人甚至超过 460ms,而电脑的反应速度全部低于 100ms。」Dojo 还有另一个过人之处——无监督学习,无需人工对训练数据集进行标注,系统可以自行根据样本间的统计规律对样本集进行分析,常见任务包括聚类等。例如仅依据一定数量的「狗」的图片特征,将「狗」的图片从各种各样的图片、视频中区分出来。实现这一功能的背后,是 Karpathy 在软件算法领域引入 了 Transformer。Transformer 最早是由 Google 提出用于机器翻译的神经网络模型,十分适合 GPU 的运算环境,且抛弃了 NLP 中常用的 RNN 或者 CNN,能取得非常不错的效果。在 CVPR2021 上,Andrej Karpathy 两次提到 Transformer,将其和 CNN、3D 卷积中的一种或者多种组合做跨时间的融合,应用到特斯拉汽车上,形成具有景深的 3D 信息输出。Transformer 很快在自动驾驶行业走火,据了解,毫末智行便正利用 Transformer 进行超大规模的感知训练。无论是 BEV,还是 Dojo,完成的还仅是「感知」层面的功能,而实现真正上路的自动驾驶,还要完善「决策」部分的能力。针对于此,Karpathy 提出的「影子模式」(Shadow Mode),是自动驾驶领域的又一次飞跃。所谓影子模式,指的是在车辆主大脑之外的另一个「分身大脑」,它同样能获取车辆的各种传感器数据,并对行驶路况作出预测,还能输出驾驶决策指令。不同的是,影子模式下的预测和指令不会真的被执行下去,而只用来和主大脑决策的实际效果做对比,并以此评价和改进测试版神经网络。通过影子模式,特斯拉可以高效且安全地得到测试版神经网络的实际上路效果。Andrej Karpathy 这样评价:「人脑能「脑补」出距离并拥有优秀的驾驶技术,神经网络同样有这样的能力。」如此这般从数据采集到算法部署的闭环,让特斯拉自动驾驶在纯视觉条件下,就能实现对于长尾 case 的自动分拣、模块测试、上线,系统性能不断迭代,更加成熟。以至于在 2021 年 5 月,特斯拉直接宣布北美市场生产的 Model 3/Y 将不会再配备毫米波雷达,原因是特斯拉采用摄像头来进行深度估算的精度已经超过了摄像头+毫米波雷达。「毫米波雷达或激光雷达方案有着无法解决的弊端……基于纯视觉的特斯拉的自动驾驶依靠 8 个摄像头和背后的 Dojo 超算,原则上我们可以在地球上任何地方(的道路上)使用。」Karpathy 在 CVPR2021 会上这样说道。如果说马斯克是一个拥有天马行空思想,却不考虑技术落地的「疯子」,那么 Karpathy 无疑是拥有超强工程思维,善于逆向解决各种「不可能」问题的「天才」,在这样一场「纯视觉」盛宴中,即使是自动驾驶技术的旁观者,也能从中汲取到智慧和思考。作为特斯拉自动驾驶的灵魂人物,Karpathy 这次离职,无疑将重挫该公司的「纯视觉」路线进度。回看 Karpathy 加入特斯拉后,自动驾驶功能这些年的更新:- 2017 年 3 月,推送自动泊车和自动辅助变道功能;
- 2018 年 10 月,推送自动辅助导航驾驶(NoA)功能;
- 2019 年 9 月,推送智能召唤(Smart Summon);
- 2020 年 4 月,推送识别交通信号灯和停车标志并作出反应(海外先行);
- 2020 年 10 月,在部分员工和早鸟用户人群中小范围测试 FSD Beta;
- 2021 年 9 月,基于「安全驾驶评分系统」,开放 FSD Beta 的「申请按钮」(Request Button),彼时版本是 v10.1;
- 2022 年 2 月,FSD Beta 最新版本来到 v10.10.2,已收到推送的车主规模约 6 万人。
看起来,特斯拉 FSD 似乎马上就要大面积铺开。2022 年 1 月 27 日,在特斯拉 2021 年 Q4 及全年财报会议上,马斯克表示:「个人预计,特斯拉将在 2022 年实现比人类更安全的 FSD(完全自动驾驶)……」然而随着 Karpathy 的离职,马斯克恐怕又要跳票了。在 Karpathy 休假的这段时间里,FSD 迟迟未得到大的更新,甚至因为算法出现的「幽灵刹车」现象,受到特斯拉车主们的投诉,数目更是激增:从 2 月的 354 起,涨到 5 月的 758 起。为打消外界疑虑,7 月 14 日,马斯克在推特上透露,FSD V10.13 测试版自「明天」(7 月 15 日)开始内测,旨在对一些场景进行优化,并在下一周开放公测。不过,这一说法并未能被公众买单,有诸多迹象表明,特斯拉自动驾驶正在生变。据加州就业发展部的记录,6 月份,特斯拉刚关闭了位于圣马特奥的办公室,229 人被解雇。值得注意的是,该办公室有一个数据标注团队,专门负责帮助改进特斯拉的驾驶辅助技术。有声音猜测,马斯克或早已得知 Karpathy 将要离职,提前行动及时止损。随之而来的是另一个问题,Karpathy 走后,特斯拉「纯视觉」路线将何去何从?7 月 6 日,一辆 2015 款的特斯拉 Model S 从佛罗里达州盖恩斯维尔以南的 75 号州际公路上驶入高速公路休息区停车场,径直撞上了一辆停在那里的牵引车,尽管还未证实在当时自动驾驶功能是否开启,但巧合的是,这次撞上的又是一辆「白车」。而在更早之前,根据美国国家公路交通安全管理局(NHTSA)的数据,截至 2022 年 5 月的 10 个月中,有 200 多起车祸都与特斯拉的 Autopilot 软件有关。为此,《华盛顿邮报》和 CNBC 先后发文,抨击特斯拉 FSD 的表现离真正的自动驾驶相去甚远。业内人士也起了疑心,「纯视觉」路线看起来那么美好,可在实际运作时,似乎隐患重重。就在这一敏感时间,6 月 7 日,特斯拉向美国联邦通信委员会 (FCC) 注册了一种新型高分辨率雷达(High Resolution Radar, HD Radar),从 RF 测试报告看,该雷达 6 发 8 收,载频 77GHz,支持三种扫频模式,最大扫频带宽 700MHz,帧周期约 67ms(15Hz)。然而,在马斯克宣布下一任 AI 主管人选之前,一切还不得而知。Karpathy 的下一步去处,也引发业内人士的强烈兴趣。有人直言,在自动驾驶技术竞争日益激烈的当下,谁能成功邀请到 Karpathy 加入,谁就将在其中拿到一张王牌。不过,Karpathy 本人似乎还没有明确的计划。他在推特上写道,希望花更多时间重新审视自己对人工智能技术、开源和教育工作的长期热情。教育似乎是 Karpathy 十分感兴趣的一项工作,这不仅体现他每次在 Tesla AI Day 和 CVPR Workshop 上面的热情分享,从 Karpathy 更早之前的学术经历也可以窥知一二。2011 年到 2016 年,Karpathy 在斯坦福大学攻读计算机科学博士学位,师从人工智能大牛李飞飞,在此期间,他根据自己所学,设计了一门名为 CS231n(面向视觉识别的卷积神经网络)的课程,并担任主讲人,向在校生开放,成为斯坦福大学最受学生欢迎的课程之一。后来,有人把这门课放在了 Youtube 上,吸引数百万人观看。「我一直热衷于教学,在不列颠哥伦比亚大学读研期间,也做过不同班级的助教,我喜欢看人们学习新技能,并做一些很酷的事情。」谈及这段经历,Karpathy 十分自豪。他在 Pieter Abbeel 主持的 The Robot Brains Podcast 节目中透露,开课的那一年,他只专注于课程和教学设计,甚至把整个博士学位的研究都搁置了。「我觉得,这可能比写一两篇论文更有影响力。第一学期课程时,大概有 150 名学生上课,到我离开时,课堂上已经有了 700 名学生。」Karpathy 将其称为自己博士学位的一大亮点。不知是否是巧合,这几年,陆陆续续看到 AI 大牛从业界重返高校,最早是吴恩达,后面是李飞飞、张潼……最近,华为自动驾驶系统 CTO、车 BU 首席科学家陈亦伦从华为离职,表示将加入清华大学智能产业研究院(AIR),任智能机器人方向首席专家。据了解,陈亦伦本、硕毕业于清华大学电子工程系,博士毕业于美国密西根大学电子工程,于 2018 年加入华为,负责高阶自动驾驶技术解决方案设计,从 0 到 1 主导完成了华为第一代自动驾驶系统的全栈研发。一位业内人士表示,这与企业和高校的运作模式有关。「在企业做研究,要求的是在一个特定的时间内尽快打造出产品。而在高校,时间上可以更自由,容许学术大牛自由地按照自己对专业的认知,一步步推进技术发展。」这或许可以部分解释 Karpathy 为何从特斯拉离职。Karpathy 曾坦言,和马斯克一起工作是一把双刃剑。「如果他昨天就想要看到未来,就会推动别人去做,也会注入很多动力。他希望这件事尽快发生,而你也需要有某种态度,在很长一段时间内真正容忍这种情况。」智能汽车技术与商业创新论坛首站,将于今年 11 月在广州举行。关于本次论坛更多信息,欢迎扫描上方二维码加入「粤港澳大湾区智能汽车交流群」了解。7 月 22 日周五 20:00-21:00,福瑞泰克 CTO 沈骏强 将和我们聊聊「高阶自动驾驶量产之冰山效应——软件定义汽车时代,Tier1该如何赋能车企提供业务价值?」。欢迎扫描下方二维码报名或添加微信 autobit008 预约收看直播。
▼ 欢迎点击阅读原文,观看往期「汽车之心·行家说」回放。