特斯拉Autopilot的终极野望:驶向 L5
希望这次特斯拉不会跳票
进入到 2020 年,特斯拉 Autopilot 自动辅助驾驶系统的研发似乎也进入了渐缓期。
从功能层面上来看,今年Autopilot 的工作重心从高速公路驾驶辅助转移到了在城市内实现自动辅助驾驶,目前新增的功能并不多,交通标识识别算一个,此外 FSD 功能的价格还涨了一波。而像我们熟悉的 Summon(智能召唤)和 NoA(自动辅助导航驾驶)已经是去年的事了。
Autopilot 的推进节奏似乎慢了下来,在已经过去的两个季度的财报中,关于 Autopilot 的表述并不多,唯一提到的一点就是 Autopilot 的 4D 化。
但是在最近几个月,关于 Autopilot 更多细碎的信息点不断抛出,让我们得以更好的了解 Autopilot 最新的进展。
自研神经网络训练计算机 Dojo
Dojo,在日语中是道场的意思,也就是过去武者们用来练习和提升技能的场所。现在特斯拉也为自己构筑了这么一个道场,目标是训练自己的 Autopilot。
在更早之前的特斯拉自动驾驶技术日上,特斯拉正式在外界公布了自己的自动驾驶开发方向和逻辑,关于 Dojo,也简单提了这么一嘴:Dojo 能够接收大量视频数据,然后进行无监督的大规模训练。彼时说的是,关于这个项目,会在今年年初公布,但……跳票了,又进入了「Elon Time」。
2019 年 11 月,特斯拉 AI 总监 Andrej Karpathy 对外讲演特斯拉如何训练自动驾驶时,其中提到了这样一张图:
但是彼时,在提到 Dojo 的时候, Andrej Karpathy 讳莫如深,只是这样说道:「Dojo 是神经网络训练计算机和芯片,用于训练和推理,我们希望以较低的成本将效率提升一个数量级。」
特斯拉在酝酿大招,这个无疑了。
今年 8 月,为了更多的招募软件以及芯片层面的人才,马斯克在 Twitter 上公布了一点关于 Dojo 的更多细节:「特斯拉正在开发一种神经网络训练计算机 Dojo,用来处理视频视觉,这才是真正的野兽(意指性能强大)」。
看来,在自研完自动驾驶芯片之后,特斯拉还准备继续搞一票大的:神经网络训练计算机 or 芯片。
以上,就是我们对于 Dojo 已知的全部细节。
特斯拉是如何训练自动驾驶神经网络的?
为了弄清楚特斯拉为什么要自研神经网络训练计算机这个问题,我们首先要弄明白:特斯拉是如何训练自动驾驶神经网络的。
众所周知,特斯拉走的是视觉自动驾驶路线,主要依靠摄像头传感器来获取周遭信息来确定自身所处环境。大概就像这样:
为了让摄像头更好地识别这些物体,特斯拉需要把这些物体框出来,并打上不同的 tag(标签),然后不断地通过深度神经网络来训练模型,教机器识别物体。
(单个视图任务)
由于道路情况很复杂,Autopilot 不仅要分析道路上各种静态和动态物体,同时还要了解道路组成部分。所以需要同时处理多个任务。
为此,特斯拉采用「类 ResNet-50」的骨干网络,这个东西具体是什么就不展开了,你知道是一种深度神经网络就行。但是即便如此,还是远远不够,特斯拉 AI 总监 Andrej Karpathy 表示,「我们不能为每一个任务分配一个神经网络,因为这里有近乎 100 个任务,所以,我们用了一种共享骨干网络(shared backbone)」。Karpathy 将之称为 Hydra Nets(Hydra 意为九头蛇),确实有点儿内味(这里其实就已经暗示了,现在的神经网络不够用了,所以要研发自己的神经网络训练计算机)。
比如智能召唤的道路标识线的识别:
当然,图片所能传递的信息还是 2D 的,为此,特斯拉将不同摄像头视角采集到的画面进行拼接,生成一张由摄像头视角生成的「鸟瞰」地图,从而让车子明白自己所处的位置。
同时,可以通过访问同一场景不同视图来预测物体的深度,类似这样:
这个已经有点「伪激光雷达」的意思了。按照 Karpathy 的说法,特斯拉采用伪激光雷达的技术,可以预测每一个像素的深度,然后进行投射,以这种方式达到类激光雷达的 3D 效果。
很显然,这也对算力提出了更高要求,特斯拉正在压榨自己芯片算的力,而现在他们正准备将 Autopilot 从 2.5D(也就是图片)升维到 4D(3D+时间标签)。而升维到 4D,将进一步提升 Autopilot 对于周遭环境的理解能力,提升驾驶的安全性和舒适性,不过与此同时,对深度神经网络也提出了不小的挑战。当然,这些都属于感知层的东西。
如果你想要预测道路布局,进而进行路径规划,则需要用到多个网络。所以,特斯拉为不同的摄像头配备多个相应的网络。比如说这个:
这是一个通过三路摄像头进行的神经网络的训练和预测,你能够很明显的看到,这已经不是一个图像空间,而是类似一种上帝视角的视图。再看这张:
有一条路径若隐若现,这就是神经网络在运算后的预测结果。
特斯拉通过 8 个摄像头捕捉到的画面,不断进行分析,同时产生各种不同的中间预测,但是这些神经网络产生的特征会进行第二轮、第三轮处理,这样就会有更多的结果输出,同时模型承担着目标检测,深度检测,目标识别等等多项任务。
现在,特斯拉需要训练 48 个深度神经网络,截止到 2019 年 11 月,已经花了 70000 个 GPU hours 用于训练 Autopilot。
特斯拉倾向于垂直整合,通过各种传感器来收集数据,标记数据,然后在 GPU 集群对其进行训练,而后会遍历整个堆栈,训练自动驾驶模型,通过布置在特斯拉的车辆上的传感器进行遥测,同时随着时间的推移以及训练的增加,不断优化和改进功能,而后形成一种闭环,就像这样:
从理论上来说,只要标签团队不断整理和改善数据集,剩下的工作原则上都可以自动化进行,Autopilot 的能力也会自动提升。
从上面的内容中,其实也能看到,虽然特斯拉有 48 个神经网络,但是依然不够用,而且 GPU 太昂贵了,所以,自己研发专用于神经系统训练的计算机成为特斯拉的又一个新的任务指标。从马斯克今年 8 月的那条推文来看,Dojo 还在开发过程中。
目前已知的是,Dojo 这个「怪兽」并不是放在车端,而是位于服务器端,用于提升训练速度,并完成自我学习成长,无需对单个汽车进行升级(改造)。 虽然 Dojo 还没有开发完成,但是似乎已经可以投入应用。
FSD 重写,即将迎来大更新
今年 8 月,马斯克在 Twittet 上表示:「FSD 将会迎来一次大的更新,这个提升不仅仅是简单的功能更新,而是对基础架构进行了重写。马斯克表示,自己的车上已经安装了最初始的版本,从家到公司全程开启,几乎不用干预。而这个重写版本会在 6-10 周内进行限量下放。」
根据描述,新增功能很有可能就是此前一直说的「识别交通信号灯和停车标志并做出反应」以及「在城市街道中自动辅助驾驶」。而且这还是一个重写的 FSD 全新版本,非常值得期待。
按照马斯克的说法,FSD 新版本将可以实现避让坑洼路面。特斯拉会在感知层面为颠簸和坑洼贴上标签,让 Autopilot 模型学习,以便在安全的情况下进行减速或者转向操作。「最开始可能不是那么完美,但是随着时间推移,功能将会逐渐得到改善,不过要在全球范围内实现这个操作,大概需要一年的时间。」
除此之外,在今年的世界人工智能大会上,马斯克表示,年底将完成 L5 级全自动驾驶功能开发,这又是一个大瓜。显然,Autopilot 基础版和 FSD 已经有渐行渐远的趋势了,前者立足当前的 L2,后者继续向着 L4 进发,但是能走多远,暂时还是一个未知数。
就在上个月,特斯拉自动驾驶团队被曝光:大约有 300 名工程师在 Autopilot 团队中工作,软件方面不到 200 名,芯片设计方面 100 多人,同时有数名主管,马斯克本人也密切参与了 Autopilot 开发的各个方面。
此外,马斯克表示,特斯拉还有超过 500 个技术高超的 labelers(负责为计算机识别物体打标签的团队,以便 AI 更好的学习),「这是一项艰巨的工作,需要技能和培训,尤其是进行 4D 标签标注」。马斯克透露,正在将这个团队扩展到 1000 人。
大胆猜测,不管是 Autopilot 识别要从 2.5D 升维至 4D、FSD 的重写还是年底 L5 功能的开发,都与这个神经网络训练计算机 Dojo 脱不开关系。
除了这些瓜,另外一个明确的信息是,特斯拉第二代自动驾驶芯片也已经在路上了。目前已知的是,二代自动驾驶芯片将采用台积电 7nm 工艺,性能将是上一代 HW3.0 的三倍,预计会在 2021 年第四季度量产。就目前而言,即便是一代的自动驾驶芯片,特斯拉貌似还没有将其性能开发到极致,现在二代芯片也安排上了且性能炸裂,特斯拉惊喜真的是一 part 接着一 part。
小结
以上,就是 Autopilot 最新进展的全部内容,虽然能说的都说完了,但是这里面留下的回味空间和想象空间还很大。
截止到今年 4 月,基于 Autopilot 的里程数已经达到 30 亿英里,NoA(自动辅助导航驾驶)功能的使用里程也已经达到 10 亿英里, 自动变道累计超过 20 万次。
这其实是一个非常可怕的数据,随着新车销量的进一步增加,特斯拉在数据以及案例上的积累将会越来越多,用于 Autopilot 训练的素材库也将异常丰富。随着后续 Dojo 的加入,Autopilot 将会跑的越来越快。
写到这里,我甚至会有这样一种错觉:其他车厂还能赶得上么?依托着强大的垂直整合能力,特斯拉基本上把自动驾驶最核心的东西都捏在自己的手上(软件、芯片);同时凭借着马斯克的超强号召力,全球顶尖人才都聚在他的麾下;还有海量增长的全球车队,特斯拉已经形成了一个完整闭环,要人有人、要效率有效率,再加上数年的先发优势……活活气死同行吗?
特斯拉的终极野望当然是实现 L5,不过,从目前来看,没有激光雷达和高精地图加持的 Autopilot 能走多远是一个未知数,相信所有和特斯拉一样走迭代路线的车厂都在观望,我们也会持续关注。
眼下最值得期待的,应该就是 FSD 全新版本的下放了,希望这次特斯拉不会跳票。