特斯拉：雷达都走开_车家号_发现车生活

作者 I Chris

编辑 I Chris

▎12 月 6 日凌晨 5 点，《纽约时报》发出了一篇题为「Inside Tesla as Elon Musk Pushed an Unflinching Vision for Self-Driving Cars」，矛头再次对准特斯拉的纯视觉智能驾驶感知路线。

确实，当特斯拉正式移除美国工厂下线的车型中的毫米波雷达，FSD Beta 公测车队基于其「安全评分」推送至全美各地，又把中国和欧洲官网页面陆续撤下毫米波雷达的介绍页面时，我们无法在把特斯拉的纯视觉作为一个简单的技术分歧视而不见。

我们需要正视纯视觉路线。

特斯拉移除雷达的时机非常不巧，整个汽车行业的芯片短缺导致被迫的减产、停产贯穿了 2021 年。

2021 年 5 月，特斯拉加州 Fremont 工厂下线的 Model 3/Y 不再配备毫米波雷达，两个季度后，中国的理想汽车和小鹏汽车都因毫米波雷达芯片供应的限制推出来新的销售政策，不得不走「先交付车辆，再后装雷达」的模式。

这是一个多么水到渠成的推理：特斯拉因为毫米波雷达供应短缺，匆忙上马纯视觉方案到量产车型中，后续车型也不再配备毫米波雷达。

不过，这番推理和特斯拉高级 AI 总监 Andrej Karpathy 两次演讲中披露的信息似乎有出入。

重要的信息都在 8 月 20 日，在特斯拉举办的 AI Day 上，在那场面向行业人士招聘的、对普罗大众而言过于晦涩难懂的发布会中，Andrej 详细梳理了特斯拉 Autopilot 深度神经网络在工程化过程中发展的脉络。

你很难相信，特斯拉最终移除毫米波雷达，起因源于对视觉感知的不满，但事实确实如此。

2019 年 9 月，特斯拉正式推出了智能召唤功能。基于环绕全车的 8 颗摄像头，特斯拉 Autopilot 得以不依赖车道线、不依靠高精度地图，识别出各种犄角旮旯里的障碍物，从最远 65 米外自己规划行进路线，开到你身边。

和你想的一样，这个功能确实非常的难做。光是从 0 到 1，就让 Autopilot 部门进行了一次大规模的重组。在那个过程中，时任 Autopilot 工程副总裁 Stuart Bowers、感知负责人 Drew Steedly、规控负责人 Frank Havlak、仿真负责人 Ben Goldtein 相继离职，Elon Musk 重新接管了 Autopilot 团队。

没想到，从 1 到 10 的体验优化遇到了更大程度的挑战，与之相关的算法优化最终导致了雷达的「下课」。

在特斯拉 AI Day 上，我们得以了解 Autopilot 当时的困境。

在智能召唤中，Autopilot 的首要任务是识别并预测不同停车场的路沿，特斯拉开发了一个叫 Occupancy Tracker 的向量空间工具。将全车 8 颗摄像头拍摄的图像（而不是基于时间序列的视频）缝合起来，投射到 Occupancy Tracker 当中。

这带来了两个重大的问题，首先，Occupancy Tracker 是基于 C++ 代码写成的，它本身的迭代及与之相关的参数调节需要大量复杂的手动编程工作，这个问题可能是前文那几位 Autopilot 骨干力量离职的诱因之一。

更致命的问题也许是，手动编程背离了特斯拉致力于通过深度神经网络逐步取代所有手动编写规则的底层研发逻辑，且基于图像缝合的 Occupancy Tracker 效果很差，不是差一点，是差距巨大。

举例来说，一旦转到开放道路上，基于图像缝合的路沿预测就出现了重大的偏差，2D 图像中看起来预测得很准确的路沿，投射到 3D 向量空间中偏差巨大，几乎无法作为感知信息输入。根本问题是，2D 图像中的每个像素无法准确地预测深度，并投射到 3D 向量空间中。

当基于图像来进行对象检测时，如果一辆半挂正好从车旁经过，全车 8 颗摄像头中的 5 颗捕捉到这辆车，但由于本质上输入的是图像，而非动态的视频，融合这些摄像头的预测变得极为困难。

这让特斯拉意识到：Occupancy Tracker 本身的方向错了，要对整套算法进行彻底的重构。需要将全车摄像头拍摄的基于时序的所有图像（即视频）输入到到同一个深度神经网络（也就是后来大名鼎鼎的 Bird-Eye View Net）中。

这可以解决前面提到的复杂的手动编程问题，感知性能开始随着深度神经网络的训练不断改进。但如何将摄像头拍摄的视频中的特征准确地投射到向量空间中去，依然是一个复杂的问题。这里 Andrej 拿不同视角的摄像头中的同一个路沿在向量空间中的位置举例。

注意看标题，直到这里，特斯拉仍然在焦头烂额地解决视觉感知的挑战，我们还没提到毫米波雷达，不过 Ta 马上就要出场了。我们继续。

特斯拉插入了 Transformer 层，Transformer 是 Google 在 2017 年 6 月的论文《Attention is all you need》才提出的一个模型。Transformer 的多头注意力机制（Multi-Head Attention）可以将一个序列中的不同位置联系起来，计算出序列的表示形式。换句话说，解决了图像输入和向量空间输出的对应关系。

当然了，这里我们是如此的轻描淡写，事实上 Andrej 特别强调，这是很 Easy-to-say 但 Hard-to-do 的。特斯拉在 Transformer 工程化的过程中趟过了大量的坑。

这个时候我们再看向量空间中的映射效果，新的 BEV Net + Transformer 的预测能力取得了巨大的改进。实际上到这里，毫米波雷达的地位已经开始动摇了。但你也能看出特斯拉确实不是冲着毫米波雷达去的。

因为非常好地解决了视频输入和在向量空间中的预测性能问题，前文提到的多摄像头的对象检测和预测的融合问题也不复存在了。

但把这一版算法拉到公开道路上测试（这里特斯拉的研发思路有了调整，不再关心智能召唤的体验，直奔城市开放道路下的 FSD Beta 了），特斯拉很快发现了新的问题。

简单来说，相比人类驾驶员，Autopilot 最大的问题是「缺乏记忆」能力。

例如，我们在路上开车，如果发现前车距离我们越来越近，那么我们会直接感知到前车在减速/前车速度低于本车/前车静止等，并基于此做出新的驾驶决策。

但「发现前车距离我们越来越近」，依赖的是过去一段时间里我们对前车相对本车距离的「记忆」。

除此之外，许多路标信息（马上就会开过）、他车是否开启转向灯（闪烁），大量常见的驾驶决策，都高度依赖「记忆」。

于是，特斯拉又加入了特征序列模块（Feature queue），特征序列模块中分别插入了一个基于时间（time-based）和基于空间（space-based）的序列。

其中基于时间的序列每 27毫秒同步一次，基于空间的序列每 1 米同步一次。

这让 Autopilot 算法有了「记忆」能力，但顺便带来的关键价值其实是：特斯拉可以完全通过摄像头来获得车辆周围障碍物的速度、加速度和距离信息了。

在这张 PPT 中，上图是深度，也就是距离预测，下图是速度预测。

其中绿色为毫米波雷达的输出，黄色为 2D 图像输入的神经网络的预测，可以看到 2D 图像和毫米波雷达的输出有很大的偏差，而蓝色则是最新的 3D 视频输入的神经网络的预测，和毫米波雷达高度接近，并在许多部分都是完全重合的。

我们终于说到了毫米波雷达。毫米波雷达实现的一系列主动安全功能，例如自适应巡航控制（ACC）、前向防撞预警（FCW）等，核心原理是通过发射电磁波信号，接收目标信号来获得车辆周围障碍物的相对速度、相对距离、角度和方向等。

可以看出，毫米波雷达是通过完全不同的方式拿到了和纯视觉一样的信息，这就是标准的异构冗余的概念。所以，在 Autopilot 工作的时候，让毫米波雷达和摄像头互为备份、双重校验，难道不是一个更好的方案吗？

然而，在 6 月 20 日的 CVPR 演讲中，一向温文尔雅的 Andrej 说出了这样一句话：

We are able to start removing some of the other sensors because they are just becoming these trashes that you start to not really need at all.

我们开始有能力移除一些其他传感器，因为它们开始变成你根本不需要的垃圾。

这是因为自 2016 年 10 月特斯拉自研摄像头和毫米波雷达的感知算法以来，Autopilot 的体验持续地受到毫米波雷达的困扰。

Andrej 在后续的演讲中更具体地解释了这一点。简单来说，毫米波雷达总是容易误报。因为高出地面的井盖、或者桥梁、路口横穿的障碍物、对向而来的车辆没有很好的跟踪，雷达都会发出误报，这些输入其实都是噪音。

在实际的体验中，这表现为 Autopilot 运行状态下，特斯拉会概率性的幽灵刹车。许多车主将此归咎于特斯拉摄像头感知性能不够，殊不知这是毫米波雷达的锅。

Andrej 表示，当 A 传感器的信息密度比 B 传感器大超过 100 倍时，B 传感器存在的意义就在于制造阻碍，真正的贡献就是产生噪音。

这个说法和 Elon 此前对毫米波雷达的评价其实是一致的：传感器的本质是比特流，摄像头比特/秒的信息量要比雷达和激光雷达高几个数量级，雷达必须有意义地增加比特流的信号/噪音，以使其值得被集成。随着视觉处理能力的提高，摄像头的性能会远远甩开当下的雷达。

从 2020 年 3 月 Elon 首次公开提到 Autopilot 核心底层代码的重写和转向 3D 标注算起，到 2021 年 5 月特斯拉正式移除北美的毫米波雷达，整个工程化周期历时 14 个月。

在我看来，虽然这是工程世界的一个技术演进，但其实也非常有趣。尽管入学时间晚，但因为老师重点关注、自身天赋异禀，摄像头对雷达风卷残云般的取代有点儿像《三体》中的「我消灭你，与你无关」。

对于自动驾驶来说，对技术路线的第一性原理判断也许会左右大决战的走向。

哦对了，差点儿忘了一个车主们关心的问题：中国和欧洲官网页面陆续撤下毫米波雷达的介绍页面，特斯拉 Giga 上海工厂下线的 Model 3/Y 还配备有毫米波雷达吗？

答案：截至目前，Giga 上海工厂下线的 Model 3/Y 仍然配备了毫米波雷达，但根据特斯拉的技术进度，接下来的变更是可预期的。