极越AI DAY 2024，让大模型在智能汽车上卷起来_车家号_发现车生活

如果要用一句话来总结极越AI DAY 2024的内容，驾仕派认为最合适的一句是：

智能车的未来在AI大模型，极越在百度的三款新的AI大模型——自动驾驶视觉大模型VTA；自动驾驶视觉感知大模型；视频语音融合、多合一、端侧大模型——支持下将成为真正的“AI CAR”。

往常听到类似频繁提及“大模型”、“AI”、“AI CAR”这些词汇，大概率情况下会觉得这些就是车企的营销手段，实际落地的可能只不过是语音识别更好一些、开城噱头更多一些，能够零星解决一些功能体验。

原因无他，到底大模型的实际应用是什么，就连手机企业都还停留在呼出一些语音搜索的基础功能上，远未实现“生产力”的阶段。那么在这个领域作为比手机企业落后一个阶段的汽车企业，又如何能够说自己可以造出AI CAR呢？

当然，传统车企不行，新势力也很难，但不代表新新势力不行。

首先什么是AI CAR，这个AI CAR和现在大家提到的智能网联有什么区别呢？极越CEO夏一平就做了一个比较简单直接的定义：

“在智能汽车3.0时代，‘机器人化’将是发展趋势，具备自然交流、自由移动、自我成长三种能力的汽车就是汽车机器人，才是真正意义上的‘AI CAR’。”

同样，英伟达汽车事业部副总裁吴新宙在GTC上也表示，汽车行业正在从软件定义汽车走向人工智能定义汽车，他认为主要有三个因素在驱动：

1、软件定义汽车已经无处不在了；

2、自动驾驶堆栈的转变，会进入到端到端的人工智能堆栈；

3、生成式人工智能的推动。

所以说，不管是夏一平口中的AI CAR，还是吴新宙和英伟达强调的人工智能定义汽车，一个和目前互联网汽车最大的区别在于——“自我成长”。这个“自我成长”本质上就是以人工智能来驱动车辆的进化，而不再只是依靠人工。

接下来的问题是，如何实现一辆汽车的“自我成长”呢？这个问题的答案，在极越AI DAY 2024的三场演讲中其实是有提到的，至少百度将为极越提供的三个大模型，就可以向着“AI CAR”进发。

按照极越的说法，目前极越01已经深度融合文心一言、Apollo、百度地图、小度等技术能力。极越01创造了全球范围内率先实现AI大模型“上车”、国内唯一/全球唯二的纯视觉高阶智驾、首个OCC占用网络升级、首个AI语音算法全量本地化等诸多行业领先。

不过从目前看，这些功能似乎并没有让极越01的产品体验跟别的新势力有什么明显区别。当然从极越的角度来说，接下来的两年时间，就是体现出百度AI大模型能力的时候，第一梯队和第二梯队的能力差距会逐渐加大。

在高阶智驾方面，百度智能驾驶事业群组首席研发架构师、IDG技术委员会主席王亮发布了百度Apollo自动驾驶视觉大模型VTA（Vision Takes All） Net预训练感知基础大模型，大幅升级包括动静态检测、时序跟踪、实时建图、场景理解等能力，再度提升极越纯视觉高阶智驾能力上限。

VTA大模型的核心则是用AI原生思维重构自动驾驶技术，基于纯视觉带来的海量信息（8MP摄像头的采样比是激光雷达的160倍-20倍左右），通过自监督训练和通用视觉任务学习两个步骤，让模型掌握通用泛化的学习能力。

百度定义了这套基础模型拥有四大基础能力：目标检测、实时建图、时序跟踪、场景理解。然后百度再对这四个特点任务的实现，在基础模型之上添加了任务头，在这个过程中进行深耕，从而解决这个领域中最困难的问题。

VTA网络基础大模型可以使得极越01推送的V 1.4.0版本的OCC模型新增1亿帧数据，72%的早鸟用户感受避障能力的大幅度提升。

同时，在新的AI模型训练下，视觉OCC占用网络的“检测”能力也大幅提升，可以实现三种不同前向视距下的场景检测、效率更高，也就是行泊全场景模型。

值得一提的是，百度对三种场景的取名也很贴切：高速远视场景叫“RIFLE（狙击步枪）”、城区场景叫“PISTOL（手枪）”、停车场泊车场景叫“DAGGER（匕首）”，分别可以识别0.4米、0.1米和0.05米尺寸的物体。

与此同时，王亮还表示：“基于大模型，百度打造了行业第一的智驾数据生产线、LLM赋能的自动驾驶数据索引，与此同时，通过生成式AI技术，百度也具备高效处理长尾数据的能力，这些都是推动端到端自动驾驶技术发展的重要数据引擎。”

关于智能驾驶地图，由于极越提出了“有百度地图的地方就能使用PPA”，所以对驾驶地图的覆盖率就很高。不过对于大部分自研智驾系统的车企来说，最大的问题是没有办法实现高精地图的全国覆盖，这也使得“开城率”始终无法大幅度提升。

但是百度作为既做自动驾驶又做地图的企业，它采用了百度地图LD地图（LD即车道级导航）来实现自动驾驶的普及。

而其原理同样是“大模型”技术，只是这次是利用自动驾驶视觉感知大模型生成自动驾驶原生地图，彻底重构了传统的地图生成模式——实现端到端地图生成新范式，突破了车道级地图规模化的瓶颈。

据百度副总裁尚国斌介绍，百度LD地图可看作是为自动驾驶而生，对传统高精地图的要素、精度等最小化的要求，保留最必需的要素和精度；同时，增加了经验图层、安全图层、实时图层等传统高精地图不具备的要素，让自动驾驶场景更安全。

这里面的数据是通过百度自己的地图采集车、智能网联汽车、路侧感知设备等等收集高质量的地图数据，然后利用大模型去检测、理解、追踪和建图，最终完成地图的生产。所以，百度现在基本上一天就可以完成一座城市的LD地图生成，现在已经完成了360座城市的覆盖。而且LD地图不仅仅是极越01的智驾可以用，实际上在手机端也能够看到百度LD地图的应用，这也意味着能够手机显示LD地图的城市就可以用极越PPA。

在语音交互层面，百度语音首席架构师贾磊展示百度最新的视频语音融合、多合一、端侧大模型，这可以让车机在任何网络环境下，都能快速响应用户交互需求并解答车辆相关操作的问题，给用户带来端侧完美的语音交互体验，而且这些都将在极越上升级。

车载端侧语音大模型SMILTA2-PTM是一个2B-20B参数量的模型，成为了业内首个解决语音识别大模型建模难题，可以很好地布置在车辆端侧。另外还有车载端侧文本大模型，可以更好地解决车相关问题本地直接响应；车书、车控、百科等车相关任务LLM-AGENT高度端侧运行，整个语音交互过程1秒内给出答案。

此外，贾磊还展示了可以将现在的多音区信号分离方案升级为多音区波束识别方案的新技术，同时还有视觉语音融合的多模态交互技术。后者相当于是将唇动信息和语音识别结合起来，这样可以在高噪音环境下更清晰识别、在开放环境时更好的实现免唤醒、保护隐私等等。

“视觉语音融合的多模态交互技术让复杂场景交互从错误率90%提升到正确率90%！”贾磊强调。

那么上面提到的百度AI大模型距离我们实际使用场景还远吗？

对此，极越CEO夏一平预告，极越V2.0版本即将发布，届时将升级全新的语音大模型、全国都能开的PPA智驾等重磅功能。而这些功能都是使用到了上面介绍的百度AI大模型，并且随着大模型的使用，极越提出的“每个月开新车”的OTA月月升级的诺言也将离落地越来越近。

当然，在2.0版本到来之前，现在极越01的用户已经可以接收到V1.4.0版本的推送升级，此次升级涉及智能驾驶、智能座舱、智能互联、三电等诸多领域，共计升级200+功能，解决5300+用户反馈问题。例如升级OCC占用网络可视化效果、SIMO与文心一言大模型双向融合、基于大模型的人车家生态正式“上车”等。

值得一提的是，夏一平认为，基于大模型的人-车-家生态很快将成为全新的交互体验——不再是基于APP交互的体验，而是直接使用“语音指令”实现。“不要去买过时的产品！”夏一平在发布会上喊话。

文｜JackieLXX

图｜JackieLXX