地平线创始人兼CEO余凯:以人为本——回归理性的智能驾驶计算方案

主题为“推进中国汽车产业现代化”的“中国电动汽车百人会论坛2023”于2023年3月31日- 4月2日在北京举行。4月1日,地平线创始人兼CEO余凯出席论坛,发表了《以人为本 —— 回归理性的智能驾驶计算方案》的主题演讲,指出无人驾驶行业正回归理性和用户价值,地平线正依靠前瞻战略布局,落地丰富的践行成果,并聚焦广阔发展前景。

余凯认为,大家对于自动驾驶不要那么焦虑,因为行业发展没那么快。到 2025 年,真正要做的是在合理的性价比下,把高速NOA,环线的NOA 这种封闭道路的自动驾驶体验,做到如丝般的顺滑,而且价格不能太贵。同时要有相当的投入,真正地把城区的 NOA 做到可用。

他表示,就打造自己的自动驾驶芯片这件事情的话,对于每一个车厂要慎重考虑,第一是巨量的资金跟成本研发的投入,第二是说如何持续地去保持竞争力,所以自研跟他山之石是一个战略选择,但是余凯的一个建议是如果你的销量预期不到 100 万辆的话,这个资金的效率是不高的。

以下为发言全文

尊敬的万钢主席,尊敬的陈清泰理事长,尊敬的苗部长,各位嘉宾,各位朋友,大家下午好。

今天,我向大家分享地平线关于自动驾驶计算的现状与未来,特别是从用户价值出发,一些相对理性、冷静,却不失想象张力的一些思考。

首先,ChatGPT 的话题热议正在狂飙,毫无疑问,这是人工智能有史以来最大的进展。但另外一方面,与之相关的自动驾驶却似乎发展没有那么快,这究竟是为什么?

我本人在人工智能领域已经工作了 27 年,ChatGPT 涉及的很多内容,包括语言模型,自己以前也做过。可是ChatGPT今天取得这样的一个进展,超越图灵测试已经不是问题,没有人怀疑。但另外一方面,自动驾驶迟迟没有到来。这两个问题,实际上面临的挑战截然不同。

如果说ChatGPT,会代替或辅助有些白领的工作,但这个工作本身的容错率其实是比较高的。比如让它帮我写一个发言稿,百人会发言我提几个要点,它基本上能把全部写出来,它不需要完美,因为我能在它的基础上的继续修改。但自动驾驶不一样,特别是无人驾驶。无人驾驶,可能容错率只能是0,毕竟人命关天,用户要求很严苛。

计算方面,open 的 AI ChatGPT是云端计算,云端能实现充足的电源的供给,同时有非常好的水冷系统。但车端其依赖的是电磁,散热的挑战也非常大。意味着自动驾驶,你不能使用那么大的模型,那么大的计算。

最近在 L4 或是Robotaxi领域,无论是Google、Waymo还是cruise,其商业化迟迟没有推进,也有一定的裁员。像福特和大众投资的Argo,去年也关闭了。

值得一提的,大众去年也投资了地平线,也是和地平线在量产辅助驾驶的软件、硬件系统上的技术创新,取得了一些实实在在的成绩有关。

所以,当前行业整体上,都在在回归冷静,在回归商业价值,回归商业本质跟用户价值。

什么是用户价值?当前用户对于自动驾驶的需求,真的是无人驾驶吗?调查数据显示,其实绝大部分用户, 87% 的用户真正需要驾驶过程中那种轻松感,能消除紧张与疲劳。

比如在北京,日常的上班单程通勤可能就花一个小时,一个小时全神贯注,连微信都不能看,这本身是反人性的。因为人天生是多任务的,是发散的,是不专注的。去年,我自己有一个经历,从山东回北京,因为疫情防控,在路上排了 5 个小时队。当时我坐了一台理想one,整个过程我不需要一直去手动踩油门,很轻松。这跟以前没有辅助驾驶,感受是不一样的。

所以并不需要真正地实现无人驾驶,地平线实实在在从高级辅助驾驶开始,就已在为用户创造价值。今天很多嘉宾也提到了,智能电动车是给我们全产业一个换道超车的机会。

在燃油车时代,消费者不认可中国车企能去做高端品牌,但今天智能电动车可以。因为消费者普遍接受了,国产车就是高端的,国产的智能电动车在智能化领先全球,特别是自动驾驶领域。智能化已经成为用户购车时,一个非常重要的因素。

我们产业在做什么,去应对这样的消费需求?

在日本和欧洲,它的辅助驾驶主要是L1和L2,主要是以安全法规驱动的,包括 AEB 、ACC、车道保持,紧急自动刹车这样这种安全功能。

在中国完全不一样,安全是及格线,更多是用户体验驱动、用户价值驱动。所以去年在中国 L2 +的高速NOA,包括在环线高架桥的 NOA ,不仅仅是前视摄像头,也包括周视环视,大概超过 10 个摄像头,包括毫米波,雷达波这种配置,去年都已经开始量产。目前,业内据我了解,顶级水平基本能做到百公里接管一次。

可以说,去年可能是 L2 +(高速 NOA)量产元年。今年相信我们一些领先车企,包括蔚小理,都会推出面向城区的NOA。但我认为在技术这方面还有挑战,起码要在研发上至少三年才会有一个比较好的进步。目前基本上是几十公里要接管一次,大概 20 到 30 公里。

所以,我想表达的是,大家对于自动驾驶不要那么焦虑,因为行业发展没那么快。到 2025 年,真正要做的是在合理的性价比下,把高速NOA,环线的NOA 这种封闭道路的自动驾驶体验,做到如丝般的顺滑,而且价格不能太贵。同时要有相当的投入,真正地把城区的 NOA 做到可用。

从工程上看,在自动驾驶的硬件配置,算力从几十Tops 到 1000 Tops ,其实用户体验并没有那么大区别,这究竟是为什么?实际上从这个几Tops  到 10Tops  的范围内,基本上就是前视摄像头的感知,是典型的 L1 、L2的辅助驾驶。但是从几十Tops 到几百 Tops 甚至到 1000 Tops ,实现的全都是高速NOA,而且差别还不太大,所以行业还有大量的工作可以去做。

我们真正要做的,是不断地在给定算力上去优化我们的软件算法,去用更多的数据,不断地去逼近用户体验的上限。我相信在若干年以后,我们会达到这样的水平。也就是说大概几百 Tops,城区的 NOA 也能做到不错,但真正实现更广阔区域的自动驾驶,恐怕确实需要千 Tops 以上的算力。

过去一年,地平线持续在取得商业进展,现已定点量产了 50 多款车型,前装定点有 120 多款车型,拥有接近 300 万片的车规级自动驾驶芯片的出货,包括征程 5 芯片也成为业界唯二的超过100T算力的量产大算力芯片。地平线拿下了一系列的标杆车型、标杆车企的量产项目,像搭载理想AD Pro的理想L8去年11月份开始就已经交付,也有幸跟大众集团进行重量级的战略级的合作,相信后续会有更多国际合作取得突破。

最近,我看到的高工智能的一个调研数据。2022年因为是 L2+高级辅助驾驶量产的元年,我们在去年取得了市场占有率的份额的第一,达到了 49% 的市场份额。而地平线和英伟达两家企业就占了整个市场的 95% 的市场份额,所以地平线作为一家成立不到 8 年的创业公司,目前的这个进展还是不错的,也非常感谢整个行业的伙伴、车企对地平线的信任和支持。

能够取得这样的一个商业进展,其实背后是在很多看不见的地方的点点滴滴,在技术、在安全、在创新、在流程、在体系、在质量方面我们所做的工作。比如说这一系列世界顶级的认证,好比集齐七龙珠,芯片整个流程的安全认证、架构的认证、工具链功能安全的认证,包括整个信息安全、网络安全的一系列认证。可以说地平线的征程 5 芯片是按照业界最高等级的安全标准去设计的一个产品。

同时,如果对于人工智能的软件算法没有深度的理解跟认知,你是不可能去设计高效的人工智能计算的芯片的。我们在 2020 年参加 Google Waymo 的首届自动驾驶的算法比赛,全世界一共有大概 120 个团队参加,一共有 5 项比赛,我们有四项比赛是全球冠军第一名,第五项我们是第二名。

我们也并没有懈怠,就在上个礼拜,全球最顶级的人工智能计算机视觉 CVPR 的会议,我们作为第一作者提出了一个基于 transformer 的端到端的自动驾驶的算法框架。这篇论文,在 9000 多篇的投稿论文里面,入选了 TOP12 的最佳论文,这也是我们持续在软件算法方面的前瞻性的研发。这篇文章实际上是首一次在检测跟踪预测、箭头轨迹预测端到端的用一个神经网络,从前到后全部把它用简单的一个架构去完成——传统的做法是把它打包、切分成好多的模块,然后独立地来做——所以让我们有可能像 ChatGPT 那样,用端到端的大规模的数据去训练整个的自动驾驶系统。

基于对算法的理解,我们把对算法的前瞻性研究去注入到我们对于芯片架构的设计跟研发,这个就是地平线的底层,我们叫BPU——Brain Processing Unit,我们注册了商标,希望打造像 GPU 这样的一个世界级的计算架构。 BPU 主要是面向高等级的自动驾驶,我们要聚焦最新的深度神经网络算法的计算,然后如何去优化它。

我们在征程5芯片里边,是第三代的 BPU 架构,叫贝叶斯架构,这个架构可以高效地支持 transformer 的计算。比如说我们在 swin transformer——这个是 2021 年获得计算机视觉最高奖马尔奖的一个transformer的图像识别的算法——那我们跟竞品的计算芯片比的话,我们用更低的功耗能够完成更高效率的计算;比如说在 DETR——另外一个 transformer 的算法,我们也是获得了业界最好的 FPS 计算效率。

那下一步怎么做?最近 ChatGPT 给我们一个很大的启发,就是说我们要继续地用更大的数据,更大的模型,并且无监督地去学习人类驾驶的常识,就像你从大量的无监督的、没有标注的汗牛充栋的自然文本里面去学习一样。因为每一个驾驶员他的驾驶控制序列,实际上就像我们的自然语言文本一样。语言模型就是给定一个文本的历史,预测下一个词它的概率;那么同样的,我们给定当前的交通环境,给定一个导航地图,给定一个驾驶员的整个驾驶行为的历史,怎么预测他的下一个驾驶动作?实际上可以从大量的无监督的、不需要标注的行为里面去获得学习。构建这样的一个自回归的驾驶的大语言模型,是我们下一步要做的事情。

过去的实验数据表明,我们把模型的参数规模不断变大,实际上它整个的test loss——测试的损失会不断地变小,也就是说参数越多,这个系统越聪明。我们也可以看到,ChatGPT 的话,GPT 3 大概 1750 亿个参数,可是到了 GPT 4,差不多是一万亿个参数。可是我们人类大脑是多少参数?实际上是 100 万亿个参数。大家知道猫跟狗是多少亿参数吗?3亿个参数。从3亿个参数到人类大脑 100 亿个神经元,每个神经元 1000 个突触,大概 100 万亿个参数,参数的规模决定了智能的水平,没有神秘的magic。所以人类这么聪明,无非是我们的大脑容量确实大。

所以下一代的计算架构是什么呢?就是我们要去构建面向大参数的 transformer 的统一的计算架构,尤其是要在这种架构上面去优化它的计算效率,降低它的功耗。这里面最重要的就是,你会发现在参数规模多了以后,最消耗功耗的地方可能不是计算,反而是存储数据的这个IO。我们要去构建,比如说三级的分层 hierarchical 的存储架构,去优化大参数下面的带宽瓶颈,使真正的计算效能能够提升,在车载的功耗下面也能够去 hold 住大参数的 transformer 的计算。

最后,去年在百人会我第一次提出了地平线要打造比开放更开放的商业模式,我们面向主机厂提供的不仅仅是一个黑盒的芯片,或者是说一个怎么样的软件,而是我们要帮助我们的主机厂客户去成就他们的梦想,因为很多主机厂它有成为苹果这样的一个梦想,成为特斯拉这样的梦想,比如说刚才余承东也说了这个,比如说李斌他什么都要自己做。那我在想有很多的这些车厂其实是这样,所以的话我们去成就这些车厂,去打造他自己的芯片。那我们打造这种所谓的叫 ARM 加安卓的这种商业模式,去年的话第一次提出。那么去年一年的话,其实我们已经锁定了一个主机厂,另外一个主机厂的话也正在谈。

顺便我最后也讲一下,就打造自己的自动驾驶芯片这件事情的话,对于每一个车厂要慎重考虑,第一是巨量的资金跟成本研发的投入,第二是说如何持续地去保持竞争力,所以自研跟他山之石是一个战略选择,但是我基本的一个建议是如果你的销量预期不到 100 万辆的话,我觉得这个资金的效率是不高的。

同时,地平线致力于打造一个软件生态。其实大家也知道英伟达之所以伟大,之所以成功,实际上是因为它基于它的 CUDA 打造了一个无边无际、丰富的软件生态。地平线在去年以来也致力于去打造面向智能驾驶跟机器人计算的软件生态。我们的生态建设团队跑遍了中国的大江南北,把我们的所有的几乎在自动驾驶方面投入研发的这些软件公司,以及在机器人的研发方面的这些大大小小的创业公司,我们都拜访了一遍,这个相当于就是做统战工作。

现在,业界稍微比较知名的这些自动驾驶的公司,像轻舟智航,他们基于单颗征程 5 芯片打造的城市的 NOA 方案已经拿下了一个知名车厂的一个量产项目,包括现在像小马,像文远知行,几乎大家耳熟能详的这些自动驾驶的软件公司,都已经在地平线的芯片上面去开发他们的软件方案。

这里展示的是一个全景图。我们跟软件商,硬件域控、 IDH 的合作伙伴打造了一个全方位的智能驾驶的计算生态。我们认为如果不能够去建造基于我们中国自己的计算架构之上的一个软件生态,那么未来的创新的主动权是不会掌握在我们中国的自主的整车企业的,包括智能电动车的这样的一个创新的主动权。

对于未来,我稍微谈一下可能一些反共识的看法。十年终局,刚才也有嘉宾说L3、L4的进展,我可能在这块会比较悲观,我觉得十年以后连L3 都不会真正地实现。我记得我在 2013 年,当时启动负责百度的自动驾驶的时候,接受记者的采访,我认为未来人跟车的关系,可能就跟人跟马的关系一样,你说马如果是撞了小孩,撞了人,到底是马负责还是骑马的人负责?而马是可以自动驾驶的。所以这个就是特斯拉的路线,也是我们当前量产车的路线。如果你让车厂去负责承担这个责任,那创新没法搞了,所有车厂都偃旗息鼓,都不敢投入研发了。我觉得未来的话,实际上人跟车的关系还是和人跟马的关系一样,可以实现自动驾驶,人车也是配合的,但是真正出了问题,我觉得还是司机承担责任,

但是在专用道路上面,在车云协同的自动驾驶专用道路上面是可以实现无人驾驶的。但是这有个前提,就是在这个环境里面不许有人驾驶,一定是要全部的车在专用道路上进行自动驾驶,我认为在这种条件下面是可以实现完全的自动驾驶。

最后的话,我想最后分享下我最近在朋友圈分享的一个观点,我认为第一个阶段人类梦寐以求就是希望机器能帮我们干很多事,所以我们在训练机器,而且在训练的过程中发现机器变得这么聪明了。刚才百度的李震宇讲prompt engineering(提示词工程),它本质上已经是机器在训练人了,因为人必须去找到那个法门,怎么样跟机器交流,让机器能写出你想要的那个发言稿,那这个事情本身人在顺着机器,包括现在抖音这些算法,实际上也是不断地推荐这些内容让用户的话一直在里面浏览,这些实际上是机器在训练人类,这个已经在发生,我很担心随着这个人工智能的发展,它会形成一个机器的霸权,人类在算法的这种满足上,表面上觉得很开心,但实际上是更多地放弃自己的思考,那我觉得这样的一个未来恐怕不是我想看到的。

所以我觉得第四个阶段是部分人的觉醒,比如说我带领的地平线团队在做人跟机器之间推动人工智能计算的平权,不能只是单向的透明,让所有人的数据都交给这个机器,而机器的话却是一个黑盒,它到底是怎么发展的?对我们来讲是失控的。我认为,我们一定要去推动分布式的、本地化的,保护用户隐私的,并且计算对于人类来讲是透明的,分布式的这个人工智能计算的未来。我觉得今天我们都想到了,比如说未来的车载实际上会成为分布式的储能中心,我认为未来上亿辆车装了上千T的算力的芯片,在停车的时候他如何实现相应的功能,我当年在百度的时候,在内蒙古建一个 100 万台的服务器的数据中心,就算是很大的服务器中心了,这是上亿台的车停在那边,每辆车都是上千 T的算力,这是全世界最大的计算资源池。所以,未来一定会为我们的除了车载计算以外的其他的计算去提供无限可能,我觉得计算革命才刚刚开始,我也跟长安的王俊总对于分布式的计算也确实在一起畅想了好多,所以我觉得这样的一步正在到来。

谢谢大家。

本文由 TheCars 作者:ati725 发表,其版权均为 TheCars 所有,文章内容系作者个人观点,不代表 TheCars 对观点赞同或支持。如需转载,请注明文章来源。
5

发表评论