秋凤空间丨Agent上车的“钱途”，取决于控车权_车家号_发现车生活

当前位置：

秋凤空间丨Agent上车的“钱途”，取决于控车权

秋凤空间

车家号·0浏览·2026-05-08 10:01 · 北京

在本届北京车展粗略逛了一圈，发现至少名义上，Agent（智能体）已经无处不在。理想发布L9 Livis（搭载StreamingClaw），智己在LS8上搭载IM Ultra Agent，华为的小艺Agent，吉利的WAM超级Agent，小鹏的第二代智驾VLA系统（数字机器人）……

也有不少车企与供应商合作，阿里千问打出“AI超级副驾”概念，谈成了10多家车企，腾讯发布7大座舱Agent，科大讯飞推出星火智舱，地平线推出“咖咖虾”等不一而足。

2025年Agent工程手段初步成熟，几乎所有车企都忙着张罗Agent上车。本来预计2027年上海车展才会大面积落地，结果今年车展就爆了。这表明新的IT技术应用节奏，已经缩减到1年左右。

这里大家都默认，Agent都放在座舱里，因为人在座舱里。这看起来像句废话，Agent虽然号称“自主问题解决者”，但它仍然要优先领受人类下达的任务，从人机对话出发没毛病。这也造成了当前Agent和聊天机器人（Chatbot）界限不大清晰。

车载Agent和聊天机器人的定义区别

因此有人认为，车展上很多Agent，都是套壳的聊天机器人。这话刻薄了点，也片面了点。虽然当前Agent刚开始大规模上车，应用尚处于初级阶段，但大家还是努力往真正的Agent上靠的。

Agent和聊天机器人，都基于大模型，或者多个大模型。两者最大的区别在于，前者拥有物理感知、决策执行能力。这三点，两者都有区别。

感知这一块，聊天机器人智能感知语言，而Agent要求具备多模态感知能力，视觉（人脸、手势、生物识别）、语音、触控压力，未来也将调用智驾传感器的信息（车外探测）。

决策必须拥有多个Agent调度器、场景引擎，用于拆分任务（相当于人的大脑），分配给各个垂类Agent（相当于小脑）。而聊天机器人本质上基于LLM（语义大模型），要简单的多。

执行这一块，聊天机器人最多控制空调、灯光、加热等轻应用。而Agent有权力指挥各种车载ECU、生态应用，硬件控制接口。如果按照严格定义，Agent必须拥有控车能力。问题就出在这里，车展上很多Agent，都浮在应用层，并未深入到OS之下。基本上，诟病Agent含金量不足的言论，都集中在这一环节。

抛开这些争议，约定俗成的Agent，必须能理解物理世界，有物理执行能力，而不仅仅是理解语言。这就将两者划出清晰的界限。

两者的能力区别

什么叫理解物理世界？就是理解物体运动有惯性，存在摩擦力、阻力，实体运动可能产生某种冲突（碰撞、夹住、干扰）。人类基于生活常识，默认这些物理规则。只有懂了这些规则，才能做出预判。

比如，车窗防夹早就普遍应用了，但都是触碰到肢体才降车窗，实际上检测的对象是电流。而驾驶员命令Agent升窗，后者发现，乘客将手伸出窗外，会立刻停止升窗。这会儿还车窗没碰到手。这是因为Agent理解，人和车在空间占据体积，从而预判了潜在的运动冲突。

而任务拆解和分发，就更能体现Agent与聊天机器人的能力差异。比如你上车就对AI说，“先去XX地铁站接个人，然后顺路买杯咖啡，再去公司。”后者马上就理解，这是三个任务。“去公司”相当精确（AI了解车主的常用生活场景），但“地铁站接人”和“购买咖啡”这两个任务，都不大精确，需要进一步确认。

Agent会进一步和车主确认，接人的地铁站，具体在哪个出口，以及咖啡的品牌和品类。

得到确认后，Agent理解，这三个任务，既有顺序，又有约束关系。在接人点和公司之间，它在沿途找指定品牌咖啡店，判断依据是总最短行程和停车便利两个条件综合寻优。两个乃至更多条件，权重如何设定，这是非常复杂的问题，这里不展开。

然后，如何买咖啡呢？Agent和人一样，为节约时间，会给选定的门店先下单，到店取走。付款部分，会开放给第三方应用。车主可以用声纹、刷脸授权。如果第三方应用尚未Agent，也可以用手势点一下付款（界面Agent）。

所有的生活类APP，在对接座舱Agent上都极为热衷，大家都忙着构建Agent生态。车内场景，延伸到泛场景，没有任何技术和商业上的障碍。

控车才是Agent的能力核心

和生态上争先恐后不同，Agent控车当前做的有限。一种是没能力，分布式域控，是Agent控车的障碍。座舱域负责交互，数据虽然量大，但没什么实时性要求；智驾域要求毫秒级执行。而底盘域通过独立的MCU管理转向和制动，安全等级最高。如果三域之间用串行通讯调度，跨域任务就太复杂了。

比如，行驶中你告诉Agent，“过减速带不要太颠，停在前面的红车后面，空调凉一点”。后者就需要完成一系列动作：底盘域调整悬架阻尼、智驾域找目标（红车后空位）、观察路况、降速、自动泊车，还得分配给座舱域一个不急的任务（调整温度）。如果没有统一调度层，这个命令组合无法完成。

第二种则是有能力，但需要重构硬件。这个时候，舱驾一体就成为几乎必然的选择。对舱驾一体芯片的需求，比以往任何时候都迫切。有了舱驾一体芯片，跨域数据，就无须经过总线再传递到各自内存里重建。不止是内存成本问题，光是时延就很难解决。

舱驾一体芯片带来的最大好处，就是座舱AI推理产生的任务组合，可以直接写入共享内存，智驾的推理单元，以及底盘域的控制单元马上可以领取上述任务。

当然，舱驾一体芯片的瓶颈在于算力资源分配。我们说了，座舱AI索要大量计算资源的，但没什么实时性要求。但智驾推理，传感器数据解算则必须实时完成，而且是周期性的。底盘控制对于时延的要求更高，是微秒级的。

这就要求，要给实时性任务留够带宽和算力资源，智驾任务不会遭遇堵塞。

第三种则是有能力，也有硬件基础，但主机厂暂时对于向Agent交出行车控制权，持谨慎态度。因为Agent取得控车权限后，安全威胁模型发生根本性变化——攻击面从“窃听对话”扩大到“劫持车辆控制指令”。

避免外部篡夺控车权的核心机制，现在主流技术仍是“沙盒机制”。大家普遍采取的对策，都是将“能力包”放在一个与主系统和外部都隔离的“沙盒”内。所有工具调用，都必须经过双向安全策略审核。个人通过手机APP，访问和操作自己在银行的账户资金，银行就用的同一机制。

这里面的关键在于，在传感器失效、模型幻觉、场景超出限制条件等异常条件下，Agent能顺利安全降级，而非失控。

这里面需要多重防护、复杂的权限分级、安全验证措施。总之，座舱域出现任何问题，都不能让智驾和底盘域崩了。

这涉及到行车安全。当前条件下，主机厂对此比较谨慎是可以理解的。

Agent的商业前景

但是，我们可以清晰看到，Agent统领全车所有域控，只是时间问题。到那时，Agent无可置疑的具身能力，就不会再被人质疑了。

智驾当前已经是购车核心因素。而Agent能力，将在2、3年内就将替代智驾（其实包含了智驾），成为购买决策决定性因素之一。很多品牌都有“人车家”生态的愿景，Agent将全面将其落地，而且范围会更广。车载Agent的商业价值将超越车载操作系统本身，成为覆盖出行全链路服务的平台经济体。车的硬件价值，将让位于生态价值。

也就是说，主机厂甚至可以容忍硬件不赚钱，也有把握在使用周期中，通过Agent链接的生态服务，把钱赚回来。这种新的引流和链接能力，比“订阅制”这种痛苦消费，强到不知哪里去了。前者因为不直接从用户账户上扣费，后者无痛感。Agent下达订单抽佣，就足以支持生态。当然，届时链接授权和选择问题，会产生新的、激烈的商业竞争。

建立Agent为引擎的商业生态，前提是Agent自己拥有感知、任务解构分发、执行并回馈的全链路能力，否则如果只追求做一个嵌在车机里的语音版电商入口，那就误入歧途了。

汽车从人驾到人机共驾（L2）是一个飞跃，如果进一步变身为“被Agent代管的移动空间”，结合智驾本身的升级，将成为另一个更大的飞跃。

本内容来自汽车之家创作者，不代表汽车之家的观点和立场。

文章标签

车系标签