文治宇:理想汽车智能驾驶技术创新应用

gea (1) 2024-11-13 19:07:34

  11月7日-8日,2024中国汽车软件大会在上海嘉定召开。理想汽车智能驾驶技术规划高级总监文治宇发表演讲。

  以下内容为现场发言实录:

  感谢韩总,尊敬的各位领导、各位专家、各位嘉宾:

  大家下午好!很荣幸能受邀参加今天的论坛,也非常感谢协会对理想汽车的认可,能在今天上午的会议上荣获优秀创新案例的奖项。今天也借此机会向大家汇报一下理想汽车在智能驾驶技术创新与应用方面的最新进展。

  像刚才李部长讲到的,理想汽车也一向非常关注和紧跟前沿通用人工智能领域的发展。

  在过去的一年中,我们快速完成了三代技术栈的跨越式的发展。从去年11月开始,NPN,即先验神经网络的方案,让我们具备了全场景NOA的能力,连通了高速以及城市道路,并且快速在去年年底之前完成了全国百城城市NOA的覆盖。

  在这之后,我们又同样认识到,以NPN或者依赖先验信息的方式仍然不能够快速支撑我们完成全国范围内所有城市的覆盖,于是在今年5月又开始了基于下一代技术栈,也就是无图NOA的早鸟用户推送,将NOA的可用范围推广到了全国。

  再到今年7月份左右,伴随着端到端的热潮,我们又开启了下一代基于端到端+VLM的NOA的推送,也是全球在智能驾驶方向首创的双系统架构。这让智能驾驶的AI能力获得了再次的提升,也在10月底前率先开始了面向全量Max用户的推送。

  如果再来看三个核心的统计数据,也可以看到过去一年的增长已经相当于过去几年累计值的接近一半的增长。首先是用户的智驾总里程,过去一年中增长了16亿公里,当前来到了26亿公里。而用户规模也已经跨过了百万大关达到了102万,在上个月的时候刚刚完成了百万下线以及交付的仪式。对于研发来说,另一个很重要的指标,云端的算力,目前已经来到了5.39E Flops,在一年中增长了2.9E。

  刚才提到了端到端+VLM双系统,目前最新一代的技术栈。今天也借这个机会向大家分享一下这代技术栈的情况和我们的思考。

  双系统的理论,来源于诺贝尔奖获得者丹尼尔·卡尼曼的“思考快与慢”,将人类思考的过程抽象为了这两个系统。简单来讲,系统一,也就是快系统,它的特点是更多依赖直觉及本能,能够应对日常生活中超过95%的场景。举一个例子,其实大部分人在大部分开车的时间也不需要用力去想应该怎么开车,也能把车开好。

  但是人也一定偶尔会遇到一些情况,需要慢下来,或者是停下来想一想后续应该怎么开。其实这也是运用到了所谓的系统二,或者是慢系统的思考的模式。它的特点是需要一些有意识的分析,慢一些,但是思维的层次更高。

  受这套理论的启发,我们也尝试在自动驾驶的方向上去建立这样一套架构,来把它落地下来。

  首先来看系统一,就是快系统,我们使用了一个端到端模型,它的特点是能够完成对环境的快速响应。而在系统二方面,我们使用一个更大规模体量的模型,现在使用的是VLM视觉语言模型,来去行使一个系统二的职能。有了这套模型体量更大的系统,在训练以及验证方面,仍然会面临到一些困难。我们的解决方案是在云端去构建一个基于世界模型的强化学习以及验证系统,来完成对于整套系统的高效迭代。

  接下来我们打开这三个模型来简单看一下内部的结构。

  首先是系统一,端到端。理想汽车的端到端模型采用了one model,也就是一体化的架构。首先我们的输入依然采用像摄像头、激光雷达以及导航这样的信息,通过主干网络、特征网络,以及编解码器,最终输出可以执行的规划轨迹。

  为了能够让我们去做相应的监督训练,以及同样为了能够给我们的用户在车机上显示出当前的环境信息,我们将此前常见的感知任务,比如障碍物、道路结构的感知,同样尝试去做了实例化,来表征出来。

  这样的方式给我们带来了三个优势,第一是可以让整个端到端的信息传递更加高效,利用模型的中间特征的方式来做编码和传递,中间不会有明显信息的损耗,因为中间没有规则的断点。

  第二,整个端到端之后,全链路的推理延迟也会比之前有了很大程度上的优化。

  第三,因为整个链条都是模型,可以做到完整的可导可训,也能够进一步加快基于数据闭环的迭代效率。

  再来看系统二,也就是慢系统。系统二的模型体量会更大一些,为了尽可能让它拟人,我们采用了拟人的前视两路相机以及导航信息作为输入。

  经过编码器,以及经过多模态信息的对齐,输送给视觉语言模型来去做相关的自回归推理。最终形成对于驾驶决策的高层次思考的决策,来闭环反馈给系统一,完成双系统的协作。

  而目前为止,受限于普遍的端侧算力瓶颈,以及当前这代主流芯片针对transformer架构的优化问题,将大模型部署在端侧仍然是行业里普遍还没有解决得很好的问题。

  理想汽车在这个方向上也做出了一些探索,并和英伟达的同事协作在现有框架下完成了多项突破。我们目前能把2.2B,就是22亿参数量的模型成功部署到了车端。

  最初完成部署的时候,它的单次推理时延超过了4秒钟,这在实际应用过程中一定是不可被接受的。经过这些创新性的技术应用以后,我们目前能够将单次的推理时延降低到0.3秒,大概3.3赫兹,可以做到准实时,并成功将大模型真正应用到了目前日常的智能驾驶的实时响应之中,这也是业界首次将大模型部署到车端智驾量产芯片。

  通过端到端和VLM,使得智能驾驶系统拥有了类人的快速响应的能力,也拥有了类人的推理思考的能力。那怎么训练和验证它?也是需要解决的核心问题。

  目前,我们的解决方案是提出了一个基于世界模型的训练以及验证系统,在虚拟的环境中进行学习和考试。这里用到核心技术有两个,第一个是基于3D高斯溅射的场景重建的方法,对已知的问题场景,或者说已有的数据集,以3D高斯溅射的方法去对场景进行重建与收集,我们将它称之为所谓的“错题集”。

  除此之外,智能驾驶也仍然需要去做大量的泛化验证,来去解决长尾问题的场景。我们的思路是使用扩散模型,基于已有场景去做举一反三,以生成式的方法,对已有的数据做增强和泛化,比如可以尝试改变天气、改变光线、改变路况等等。

  将这两个方向合一,就可以形成一套对于模型的评价体系,或者说一套考题集。

  有了这套考题以后,再使用一些工程化的方法,提高自动化运行效率,就形成了这代可以支持高效迭代的验证方式,也和以往以实车为主的验证方式相比有了显著的验证效率提升。

  以上讲到这些技术创新点,来源于团队对研发的持续投入,相关的学术工作也取得了广泛认可。这里摘录了一些团队从2021年至今在学术顶会上的工作发表,也在一些学术竞赛上取得了不错的成绩。像刚才提到的双系统、世界模型等,也发表在了今年的ECCV和CoRL上。

  接下来想跟大家分享的是一个非常有趣且重要的发现,模型性能和训练数据体现的规模相关性,也是大家常提到Scaling Laws其中的一个方面。

  首先看一下数据分布,在这里统计了在过去的2个月里,我们对于智能驾驶非常热爱的万人用户先锋团的使用情况,他们分布在全国超过300多个城市,在过去2个月时间里完成了接近200万公里的城市NOA的使用里程,也帮我们积累了非常宝贵的数据。可以看到上海的也是全国范围内最爱使用城市NOA的Top5城市之一。

  有了这些数据以后,再去做下一步分析,我们在这两个月的时间里,一共训练了25版模型,大概平均每2-3天就会有一个新版的模型出来。经过刚才提到的基于世界模型的评价系统,以及我们对于模型准出的其他要求,这25版模型中,最终释放给用户的是18个。

  再来看纵轴,纵轴表示的数值是在城市工况内的平均连续行驶里程,也就是连续开多少公里需要接管一次。这里数据点的颜色表征了使用不同的数据量训练出的模型的版本,蓝色是100万clips训练的模型,绿色是200万,金黄色代表的是300万。我们也在近期刚刚向用户释放了下一版基于400万clips训练的模型,相关的数据统计也还在进行中。

  可以看到从第一个模型开始,连续行驶里程刚刚超过10公里,到9月底的时候,达到了将近30公里。在对这些数据点进行拟合之后,就看到了Scaling Law。如果再往后做一些预测的话,我们的下一个目标是让城市工况的平均行驶里程达到100公里,对应推算出将需要大约1000万clip的数据,同时也验证了当前数据的规模与质量已经成为了模型性能的决定性的因素。

  如果城市NOA的连续行驶里程可以达到100公里,那一个普通用户可能每周只需要接管1-2次。虽然按照相关政策法规,这目前仍然是一个L2级别的辅助驾驶系统,但是它的体验已经可以让我们看到L3的雏形。

  说完了技术,再来看一下产品方面。我们同样快速完成了基于以上技术方案的产品化的落地,首先看一个演示视频,这里借鉴了一些我们的AI agent“理想同学”的能力。

  (视频)

  刚才这位用户提到的一键智驾,也就是现在开始向用户推送的“车位到车位”的全场景智能驾驶的功能,可以完成从车位的出发,跨层地库的行驶,包括小区、园区闸机的自动通行,到公开道路以后,可以完成一些相对复杂的城市场景的交通博弈。假如我们的用户在自己的小区,或者在公司或者在喜欢去的商超,也会有一个常用的车位,就可以完成车位到车位连续的完整行驶体验。

  下一部分是关于主动安全。除了刚才提到的舒适驾驶类的功能之外,我们也一向非常关注主动安全方面的能力。除了不断提高常规的自动紧急制动,也就是AEB,的能力之外,在最近的OTA中,我们也向用户推送两个相对比较新的主动安全功能。

  第一个是AES,自动紧急转向,最高支持130KPH的车速。这个视频也来自一位我们的真实车主,在AES上线不到2周之内就碰到的一个非常极限的案例,当时以130KPH的速度行驶在高速公路上,在弯道遇到一个作业并不太规范的施工车,即使对于人类驾驶员来说,当时的场景也非常危急,我们通过AES帮助用户有惊无险地避免了这起事故。

  第二个是低速AEB,就是LS-AEB,主要的目标是覆盖一些常见的低速泊车类的场景。比如在地库里,以相对较低的速度,和周围的行人、柱子、栏杆等可能发生的碰撞。这些事故的特点是发生碰撞之后,可能造成的损失不大,但是很麻烦,特别是针对一些新手驾驶员。

  我们通过AES和低速AEB这样的产品,完成了全时段、全速域的主动安全的保证。

  能够去支持我们完成这样的技术以及产品的创新,离不开两大核心基础设施,一个是训练里程,一个是训练算力。目前我们的训练里程基数已经达到26亿公里,并有信心在今年突破30亿公里。在算力方向,当前为5.39E Flops,预计在今年之内可以达到8E Flops,去支撑后续持续的研发。

  最后的一页中,也向大家分享一下理想汽车以及智能驾驶的中长期规划。理想汽车的企业愿景是在2030年成为全球领先的人工智能企业,而智能驾驶又是其中最重要的部分之一。在智能驾驶方面,未来我们计划以超过50E Flops训练算力,超过100亿公里的训练里程,以及超过350万台的车队规模,来去持续推进下一步智能驾驶以及自动驾驶的前瞻性研发迭代。我们的第一个目标是达到跟人类相当的驾驶智能,将城市工况平均的连续行驶里程,在下一个milestone提高到2500公里。

  在安全方面,目前通过内部的数据统计,人类平均的MPA,即安全里程,每多少公里出现一次事故,大概在24万公里左右。我们期望智能驾驶能够达到优于人类10倍的驾驶安全,我们下一个目标让智能驾驶的MPA达到至少240万公里,这会远超绝大多数用户一生的驾驶里程。

  理想汽车希望能通过智能驾驶领域的技术创新以及产品落地,持续推送智能驾驶的社会使用普及,也共同期待以及加速未来自动驾驶时代的到来。谢谢!

  (注:本文根据现场速记整理,未经演讲嘉宾审阅)

THE END