近年来慢慢的变多的车企都开始拥抱智能驾驶技术,不管是造车新势力还是传统的车企,如小鹏、理想、蔚来等自研智驾系统,或者与华为合作使用ADS系统的问界(赛力斯)、 智界(奇瑞)、 享界(北汽)、方程豹8(比亚迪)等品牌 ,以及采用Momenta方案的智己等车企,能够准确的看出新能源车的智驾功能将会是未来发展的新趋势中重要的一环,结合近年来状态火热的AI大模型技术,车企的端到端大模型也应运而生,你们经常会听到 BEV 、OCC、端到端等专业术语,这些到底是啥意思,接下来我会逐一为大家介绍与阐述。
首先给大家介绍近年来车企智驾方案的技术演进的路线,大概能分为以下几个阶段:
采用经典的智能驾驶步骤,感知,定位,融合跟踪,预测,规划,执行。在智能驾驶开发中也是严格划定每个模块的边界,各司其职。
在模块化阶段,AI主要使用在于目标物识别和感知,以及部分预测任务 。感知主要是基于视觉的目标物的识别,所以数据标注量决定了感知的精准度;预测采用决策树等算法。规控算法主要是采用经典PI( 一种常用的闭环控制策略,用于实现对系统的误差调节 ), 基本配置依赖前视摄像头来感知目标物,因此常见的5V(5 vision,即5个摄像头,其中4个为环视)方案多属于这一类别。
国内新势力Xpeng 小鹏早期都是采用Mobileye提供感知的方式实现,在国内新势力以及众多其他推出的第一代高速领航辅助都是基于此类感知方式配合HD高精地图实现。 但很快随只能驾驶功能和覆盖ODD( 运行设计域,也就是开启辅助驾驶的场景)的需求逐步扩大,这种分布式模块的智能驾驶架构,由于模块复杂,严重依赖高精地图,所以没办法规模化。
面对数据标注量的挑战和智能驾驶场景中的长尾问题(即无人驾驶汽车中发生概率较低的边缘情况),以及如何在不依赖HD高精地图的情况下实现规模化,马斯克在2021 AI Day展示了相关技术:
鸟瞰图(BEV):BEV利用车辆360度摄像头提供从上方俯瞰的视角,结合多个传感器(如摄像头、雷达、激光雷达)的数据,生成全面的环境视图。该视图显示车辆四周的物体(如其他车辆、行人、障碍物)及其三维空间位置信息。
Transformer模型:Transformer是一种深度学习架构,最初用于自然语言处理,因其优秀的序列处理和关系建模能力而受关注。在无人驾驶中,Transformer处理BEV数据,理解和预测物体之间的动态关系。结合这两种技术,智能驾驶实现了3D感知与时间维度的4D感知,使车辆能够实时检测、跟踪周围物体,并预测其未来状态。这种4D感知能力对于在复杂动态交通环境中安全导航至关重要。
Occupancy占用网格:Occupancy占用网格技术在2022年特斯拉AI Day中被提出,它能够在BEV空间中完成动态障碍物的3D检测和静态障碍物的识别建模,直接在3D空间中感知占用关系,为系统规划提供可行驶区域, 当然占用网格挺吃算力,国内目前有通过激光雷达等其他传感器方式实现。
第一端:主要指感知端,包括车辆的摄像头、激光雷达等传感器,它们负责输入环境信息。
第二端:则是形式轨迹,简单来讲也就是控制端,车辆在收集到第一端的环境信息后,最重要做出决策,对车辆进行行驶轨迹控制,让车辆依据环境进行加减速、避让等。
随着模型融合多个大模块(各模块逐步融合并被大规模神经网络模型取代)。到端系统接收到传感器的输入数据后,直接输出驾驶决策(动作或轨迹)。
相较传统模块化架构(感知/预测/规控等子模型嵌套协同),端到端大模型道过更简洁的系统架构。基于数据驱动进行全局任务优化,可避开信息损耗、计算延迟、误差累积等,利于优化长尾问题、解决智驾方案机器操控感较强的用户痛点,所以端到端上线会很高,但因训练数据的差异性和不足时,部分场景对比规则化的智驾会显得不稳定。
算力+数据是端到端技术的两大难点,一个大模型的训练分为预训练(Pretraining)、微调(SFT)和人类反馈强化学习(RLHF), 智驾模型是一个专有模型,智驾算法的本质是从大量的优质驾驶视频片段中提取和压缩驾驶知识与习惯的过程,端到端作为单一网络模型完全由数据训练驱动而实现优化。而算力是数据训练的基础设施,因此端到端模型对于数据(需要学习海量驾驶视频片段)和云端算力(需要采用大量GPU)存在巨大需求。
第一代智驾架构:基于2D图像pv空间的感知技术+基于 rule-base 的模块化功能结构
第二代智驾架构:基于3D BEV空间的感知、预测技术+基于rule-base的模块化功能结构
第三代智驾架构:基于4D空间的感知(XNet)+规划技术(XPlanner)+大语言模型XBrain+基于rule-base的传统方案安全冗余备份
小鹏汽车的端到端架构是两段式架构。小鹏之前智驾系统的规则是十万(行代码)级规模,最新发布的端到端大模型可以在一定程度上完成10亿行代码才可以做到的性能天花板,甚至更强。同时XNGP的端到端系统内,仍有部分的规则代码作为安全兜底。
从结构来看,小鹏的端到端架构仍分为感知、规控两大功能模块,其中最大的变化应该在于将过去基本完全由规则组成的规控模块,切换为神经网络为主。
XNet:XNet侧重于感知和语义,整合了动态、静态BEV网络和占用网络,实现了三网合一 ;
XBrain:XBrain 侧重于整个大场景的认知,通过大语言模型所具备的常识能力,提升感知和规控的推理和泛化能力。可读懂中英文文字,掌握各种令行禁止、快慢缓急的行为指令。
小鹏汽车当前智驾系统版本已全量推送端到端智驾方案,XNGP解决车位到车位也已确定进入测试阶段,后续将逐步OTA,看小鹏是否会是理想后第二个全量推送车位到车位的车企,敬请期待。