自动驾驶算力之争从天上卷到地上了

浪潮信息

2022-12-29 15:40 4535

北京2022年12月29日 /美通社/ -- 在量产自动驾驶方向，特斯拉是当之无愧的领军者。

不管是产品定义、产品命名，还是下一阶段的发展方向，都是特斯拉在引领全球车企和自动驾驶公司发展。

特斯拉自动驾驶系统的优异表现是算法的胜利，但算法背后，算力同样重要。

这方面特斯拉实际上是掀起了三波浪潮，从车端算力到云端算力，再到AI智算中心…每一次算力的迭代，都促进了特斯拉自动驾驶系统迈上新的台阶。

现在，中国车企在车端算力上动辄数千TOPS，已经大幅超过特斯拉，接下来就是要在车外算力上去追赶了。

一、自动驾驶越来越卷车外算力成新热点

今年8月份，内蒙古乌兰察布已经有了一丝丝凉意。虽然街上人不多，但在一间酒店会议室里却聚集起了省市区三级领导，共同见证小鹏汽车的自动驾驶AI智算中心“扶摇”揭牌。

该中心由小鹏和阿里联合出资打造。据小鹏汽车CEO何小鹏介绍，该中心具备60亿亿次浮点运算能力（60000TFLOPs），可将自动驾驶算法的模型训练时间提速170倍，并且未来还具备10~100倍的算力提升空间。

就在小鹏“扶摇”官宣后的1个多月，长城旗下的自动驾驶公司毫末智行也宣布将打造属于自己的AI智算中心。毫末智行CEO顾维灏表示，该中心的目标是满足千亿参数大模型的训练，训练100万Clips的数据，训练成本降低200倍。

在这两个案例之外，智己汽车在6月份公布了和阿里云联合打造的“云上数据超级工厂”，这是跟小鹏“扶摇”类似的AI计算中心；10月份的特斯拉AI Day上，特斯拉也展示了自有AI计算中心的最新进展，用自研的D1芯片打造的计算设备能够提升30%的模型训练效率…

毫无疑问，车外算力已经成了车载自动驾驶芯片之外，车企和自动驾驶公司们竞争的新焦点。

二、AI技术越用越多算力是核心竞争力

车外算力成为新焦点，与自动驾驶算法的演进趋势密切相关。

过去10年来，面向量产的L2自动驾驶系统在特斯拉的带动下发生了一系列变化：在单车道居中智能巡航的基础功能上，增加了指令式或全自动变道功能，以此为基础又衍生出了自动导航辅助驾驶系统 -- 设定好目的地后，车辆在高速上智能巡航，并知道何时驶下高速。

在自动导航辅助驾驶过程中，车辆需要时刻感知周边车辆，并自动做出变道决策。这与此前的单车道巡航功能相比，难度直接提升了一个数量级，进而也逼着自动驾驶算法从固定的“规则算法”向着数据驱动的AI算法转变。

随着算法越来越成熟，最近一两年高速场景的自动驾驶系统已经不再是车企宣传的重点，各家转而开始比拼城市场景的点到点自动驾驶能力。

与高速自动导航辅助驾驶相比，城市内行车又涉及到了红绿灯、十字路口、行人电动车、遮挡、固定障碍物等一系列难题，复杂度又提升了好几个数量级。

为了解决这些新问题，车企和自动驾驶公司给汽车引入了更多的传感器，高精地图、半固态激光雷达、4D成像毫米波雷达纷纷上车，且背后的算法也得进一步升级 -- 以前是从规则到AI，现在是从简单AI到高级AI。

在特斯拉的带动下，过去量产自动驾驶常见的后融合算法逐渐被抛弃，转而使用前融合的BEV算法，把摄像头的感知到的画面直接扔进AI算法里，生成一个鸟瞰视角的3D空间，并在这个空间内输出感知结果。

因为是所有摄像头统一在3D空间里输出感知目标，BEV算法很好的解决了跨摄像头的识别问题，在处理近距离加塞这种行业难题时有了更好的表现。

这还没完。因为量产车搭载的自动驾驶芯片算力相对有限，车企和自动驾驶公司还在积极使用多任务神经网络，比如特斯拉的HydraNet，就是让一套AI算法同时输出多个结果。

大家使用的AI算法越来越高级，给行业也带来了两个重要变化：

一是需要越来越多的数据来培育算法背后的神经网络，算法之间的竞争逐步变成了数据之争。

二是海量数据需要海量的存储和处理能力，车企和自动驾驶公司对专用的AI计算设备的需求量持续增长。

多位自动驾驶技术专家都曾告诉车东西，AI技术进步很快，大家在算法和模型层面的差距其实并不大，真正拉开差距的是数据收集和处理能力。

正是如此，我们才看到了车企和自动驾驶公司们在今年纷纷宣布了自建AI计算中心的消息，疯狂卷起了车外算力。

三、车外算力不只有云特斯拉打响算力

看到这里你肯定该提问了，现在云服务这么方便，算力要多少有多少，租云不就好了吗？为啥要费劲自建AI计算中心呢？

这里需要从成本和技术两个维度考量。

先说经济性。据车东西了解，目前车企和自动驾驶公司每年在云计算方面花费的资金普遍在数千万元，头部玩家上亿也很常见，且随着数据量的日益增长，在AI计算方面的投资也在水涨船高。

据IDC统计，2022年自动驾驶相关公司对AI计算的投资全部在增长，并且有28%的企业投资增长幅度超过30%。

如果持续使用公有云服务，显然存在边际成本不断上涨的问题。

而若是自行采购设备组建AI计算中心，一次性投资约在数千万到1亿元以内，长期来看性价比更高。

当然这里也有个前提，那就是企业的数据处理、模型训练流程得相对固定才行。如果还处于研发早期，AI算力需求不固定，那还是使用具有弹性的公有云最合适。

技术层面，自建AI计算中心也更具优势。

云计算的本质是租赁计算设备。云服务商的设备都是统一采购 -- 目标是具备最大的通用性（这样才能获得更多客户）。所以其设备内部使用的CPU、GPU/AI加速器、内存的型号与规格都相对固定，很难与车企和自动驾驶公司的算法形成最佳匹配。

另一方面，云服务厂商对自动驾驶算法的了解程度不高，其使用的管理软件在调度AI计算设备集群时难免会出现损耗和效率不高的问题。

这导致在理论算力一定的情况下，其训练AI模型需要更多的时间。

作为量产自动驾驶方面的领头羊，特斯拉是深知专用AI算力的重要性。

其在多年前就开始打造了属于自己的AI计算中心 -- Dojo，总计使用了1.4万个英伟达的GPU来训练AI模型。

特斯拉专家在今年AI Day上表示，其需要使用14亿帧画面才能训练一个神经网络，对应的是10万个GPU工时！可见这是一个非常庞杂和耗时的过程。

特斯拉为了进一步提升效率，在2021年发布了自研的AI加速芯片D1。25个D1封装在一起组成一个训练模块（Training tile），然后再将训练模块组成一个机柜（Dojo ExaPOD）。

按照特斯拉方面的说法，使用Dojo组成的AI计算集群，可提升30%的网络训练速度。

上面实打实的数据说明，特斯拉通过高度定制化的方式建立自己的AI计算中心，确实使其在模型训练的效率方面获得了明显的提升。

某种程度来说，特斯拉通过自研D1芯片，自研Dojo ExaPOD智算设备，实际上构建的是一种其他竞争对手难以企及的算力霸权。

接下来，随着路上特斯拉的车队规模越来越大，采集的数据越来越多，特斯拉的算法迭代速度也会越来越快，对其他车企和自动驾驶公司形成越来越难以逾越的领先优势。

四、自建AI计算中心选对设备很关键

既然自建AI计算中心如此重要，而数据中心最核心的AI智算设备，更是一点不能含糊。

目前国内AI智算设备销量第一的浪潮，已经开始全面布局智能汽车和自动驾驶领域，希望用自家高质量的AI智算设备为车企和自动驾驶公司的模型训练提供支持。

如何选择AI计算设备？软硬件结合最关键。

正如前文所言，只有高度定制化的AI智算设备才能发挥最佳的训练效果。

浪潮深知这个道理。为了研发出最适合自动驾驶行业的AI智算设备，浪潮专门组建了一支几十人的算法团队，先研究自动驾驶的前沿算法。

比如最近在NuScenes数据集的3D目标检测比赛中，浪潮自动驾驶团队的DABNet4D算法一举拿下了第一名的成绩 -- NDS综合检测精度0.624，较2021年的第一名提升了16个点，进步明显。

▲NuScenes 3D目标检测比赛榜单

浪潮信息的AI团队早在今年年初就构建了一个基于Transformer架构的多视角特征融合模型CBTR算法，并继续基于多相机时空特征优化，设计构建MASTER（Multi-camerA Spatial and Temporal feature ExtractoR，多相机时空特征提取器）。而最近所登顶的DABNet4D算法正是在MASTER算法的基础上进一步引入了深度估计网络等等，最终实现了更为高效稳定的BEV输出。

▲浪潮AI团队DABNet4D算法架构