巨模型入车:智驾领域的技术跃迁,抑或通向具身智能的宏大序章?

温故智新AIGC实验室

TL;DR:

在小鹏、理想等头部新势力带领下,辅助驾驶模型正加速迈入70亿参数量级,标志着行业从传统端到端向具身智能VLA架构的关键技术跃迁。这一趋势不仅是对提升智驾性能的追求,更是车企将自身重塑为人工智能公司,构建跨领域具身智能生态的宏大战略部署,尽管其直接性能优势与营销策略仍存辩证。

汽车工业,这个曾以机械工程和制造工艺为核心的古老产业,正以前所未有的速度被人工智能浪潮重新定义。当下,一个引人注目的技术演进正在辅助驾驶领域上演:以小鹏、理想为代表的造车新势力,正将车载AI模型的参数量级推向70亿甚至更高,逼近通用大模型的算力阈值。这不仅仅是参数规模的简单膨胀,更是对辅助驾驶底层技术范式、商业战略乃至未来出行形态的一次深刻重塑。

技术跃迁与范式重塑:从端到端到具身智能VLA

传统意义上的辅助驾驶,多采用模块化或纯“端到端”(End-to-End)架构,前者通过明确的感知、规划、控制模块串联,后者则试图模仿人类驾驶行为,将传感器数据直接映射到车辆控制指令。然而,随着通用AI大模型在语言、视觉等领域展现出惊人的泛化和推理能力,汽车行业的目光开始转向视觉-语言-动作(VLA)模型,一种更接近人类“理解-思考-执行”机制的智能体框架。

小鹏汽车的路径是典型的“云端一体,知识蒸馏”。他们正在云端构建一个高达720亿参数的“小鹏世界基座大模型”1,融合了多模态驾驶数据和LLM骨干网络,具备视觉理解、链式推理和动作生成能力。为了将如此庞大的模型部署到算力受限的车端,小鹏采用了知识蒸馏(Knowledge Distillation)技术,从中提取“精华”压缩为70亿参数级别的模型。与此同时,小鹏还自研了“图灵”AI芯片,其700Tops的AI算力足以支持300亿参数模型的处理,为大模型上车提供了坚实的硬件基础2。何小鹏亲自挂帅,将所有AI资源向基座模型团队倾斜,彰显了其All In AI的决心。

理想汽车则更早地拥抱了VLA模型,并将其视为实现更高级别自动驾驶的关键。在经历了“端到端+VLM”双系统(VLM作为慢系统辅助决策)的过渡阶段后,理想正推动其VLA“司机大模型”成为主导,计划明年将车载VLA模型参数提升至70亿以上3。其CEO李想将理想汽车定义为一家人工智能企业,把汽车视为“空间机器人”,这种理念与VLA模型的核心精神不谋而合。VLA模型源于Google DeepMind的机器人研究(如RT-2模型),它赋予了机器“完整的脑系统”,使其能看、能理解并真正执行动作,更符合具身智能(Embodied AI)的主流技术范式4。理想为此甚至进行了组织架构的重大调整,以扁平化管理加速VLA的研发和落地。

除了小鹏和理想,华为的WEWA架构、蔚来的世界大模型,以及元戎启行、奇瑞、吉利等企业也都纷纷布局或宣称将量产VLA技术4。这股浪潮预示着,车载AI正从单纯的辅助驾驶系统,向具备更强理解、推理和决策能力的具身智能系统迈进。

产业深层逻辑:技术竞赛、商业野心与营销策略

然而,这股大模型“军备竞赛”的背后,并非没有争议与深层考量。

技术之辩:模型规模与实际性能的悖论

一个核心问题是:更大的模型参数量是否必然带来更优的辅助驾驶表现? 现有证据并未给出完全肯定的答案。特斯拉凭借其“纯视觉端到端”技术,在北美实现了Robotaxi级别的辅助驾驶,其车端模型参数量可能远小于头部新势力所追求的70亿级别。地平线、Momenta等供应商也通过端到端取得了良好效果。这似乎在某种程度上说明,模型参数量级与辅助驾驶效果之间并无简单的线性关系2

辅助驾驶的核心在于精确的空间感知和实时的驾驶行为模仿,而通用大模型的优势在于其强大的逻辑推理能力。如果车企盲目追求大模型,将大量算力资源倾斜于大语言的推理过程,而压缩了空间感知等关键环节的资源,反而可能导致辅助驾驶体验的倒退。诚如理想智能驾驶访谈所言,VLA模型走向高级别自动驾驶需要一个过程,不能完全跳过端到端阶段3。技术栈的延续性、高质量数据积累和完善的仿真评测系统,才是实现高级智驾的关键。

商业重构:从汽车制造商到AI企业

这股大模型热潮的驱动力,除了技术进步本身,更深层次的原因在于车企的战略扩张和商业版图重构。当李想将理想汽车重新定义为一家人工智能企业,并将汽车视为“人工智能时代的空间机器人”时,其意图已超越了传统的汽车制造范畴2。小鹏将图灵AI芯片的未来应用扩展到AI机器人和飞行汽车,同样体现了其将辅助驾驶能力迁移至更广泛具身智能领域的野心2

"VLA模型,是想把具身智能思想与路径,应用在自动驾驶领域。" — 理想汽车詹锟3

通过投资大模型和自研芯片,这些车企正试图构建一个跨领域的AI技术平台,将汽车产品作为其具身智能战略的先行落地场景。这种战略转型,意味着它们将不仅仅是交通工具的提供者,更可能成为未来智能生活和工作场景的解决方案供应商。

市场策略:大模型叙事的价值

不可否认,大模型叙事也带有几分营销目的。ChatGPT的破圈效应让AI大模型成为公众焦点,其强大的技术震撼力很容易转化为品牌溢价和市场关注度。如同当年特斯拉V12将“端到端”推向营销热词一样,如今车企将AI大模型搬入车端,也在一定程度上是为了抢占舆论高地,塑造企业在AI技术前沿的形象,从而吸引消费者和投资者的目光。

未来图景展望:具身智能的汽车元年与长远挑战

头部车企对大模型的追逐,无论其短期效果如何,都无疑预示着辅助驾驶技术正进入一个全新的发展阶段。

未来3-5年,我们可能看到:

  • VLA模型的加速成熟与泛化:随着车端芯片算力提升和模型优化技术(如更高效的蒸馏、量化)的进步,70亿参数甚至更大的VLA模型将逐步在更多车型上实现高性能部署。其“看、理解、执行”的能力将使其在复杂城市路况和个性化驾驶习惯学习方面展现出更大潜力。
  • 世界模型仿真成为核心竞争力:如理想所强调,构建“世界模型仿真”能力是技术壁垒3。通过大规模、高精度的仿真环境进行强化学习和场景验证,将成为训练和优化具身智能驾驶模型不可或缺的环节,尤其是在处理“corner case”和生成合成数据方面。
  • 车-机器人技术栈的融合:随着VLA技术在汽车领域的深化,其底层算法和数据积累将以较低的迁移成本复用于人形机器人、飞行器等其他具身智能设备4。汽车可能成为具身智能商业化的第一站,为更广阔的机器人产业积累经验。
  • 人车交互的深度变革:具备语言理解和推理能力的VLA模型,将使得人车交互从指令式进化到更自然的对话式,车辆能够更好地理解驾驶员意图和偏好,甚至能预测行为,提供更个性化、更拟人化的驾驶体验。

然而,伴随机遇的也有挑战。AI伦理与治理将变得日益重要,尤其是在模型决策的透明性、责任归属以及与人类驾驶员的协作边界方面。数据隐私、模型偏见以及系统安全性仍是需要持续关注的焦点。此外,如何平衡技术进步与成本控制,如何在全球芯片和算力竞争中保持独立性,也是中国车企必须面对的现实问题。

总而言之,小鹏和理想在辅助驾驶领域的大模型竞赛,既是技术路线的选择,更是战略愿景的投射。它昭示着汽车正从一个简单的交通工具,向一个承载更深层AI智能、具备与物理世界更复杂交互能力的“具身智能体”演进。这不仅仅是驾驶体验的优化,更是对“什么是车”、“车将如何融入人类生活”的深层哲学思辨与未来展望。


引用


  1. 小鹏汽车展示AI实力:云端大模型+知识蒸馏,解锁自动驾驶的未来·极客公园(2025/09/xx)·检索日期2024/07/26 ↩︎

  2. 辅助驾驶模型越做越大,小鹏、理想先进入70亿参数量级·36氪·作者未知(2025/10/15)·检索日期2024/07/26 ↩︎ ↩︎ ↩︎ ↩︎

  3. 【智能前线】第32期:理想智能驾驶访谈实录,VLA 8月抢先推送·知乎·詹锟, 郎咸朋, 湛逸飞(2025/08/xx)·检索日期2024/07/26 ↩︎ ↩︎ ↩︎ ↩︎

  4. 智驾向“全局端到端”进化演变,VLA让感知-规划-控制真闭环·知乎专栏·作者未知(2025/07/xx)·检索日期2024/07/26 ↩︎ ↩︎ ↩︎