2025年7月22日,在第八屆智能輔助駕駛大會上,華為技術有限公司昇騰智能汽車&機器人領域產(chǎn)品總監(jiān)黃梓亮指出,隨著數(shù)據(jù)量激增和模型復雜度提升,算力成為車企競爭的關鍵。智能輔助駕駛系統(tǒng)從模塊化端到端向大模型過渡,參數(shù)規(guī)模從百萬級增長至百億級,數(shù)據(jù)處理量達PB級/天,訓練節(jié)奏加快至天級迭代。這些變化對云端AI算力提出更高要求,預計2028年中國汽車云端AI算力需求將達100EFLOPS。
針對行業(yè)需求,通過MindSpeed、Driving SDK等工具,華為昇騰實現(xiàn)多模態(tài)大模型訓練加速,性能領先國內(nèi)友商,并支持快速遷移開發(fā)。同時,其高可用架構確保千億參數(shù)模型40天長穩(wěn)訓練,故障恢復時間小于10分鐘,為智能輔助駕駛業(yè)務提供穩(wěn)定可靠的算力支持。昇騰賦能乾崑智駕,通過澎湃算力和軟件使能,聯(lián)手打造業(yè)界領先的智能駕駛輔助ADS系統(tǒng)。同時,昇騰期待聯(lián)手生態(tài)伙伴,為車企提供智能化解決方案,賦能智能汽車AI發(fā)展。

黃梓亮|華為昇騰智能汽車&機器人領域產(chǎn)品總監(jiān)
以下為演講內(nèi)容整理:
智能駕駛業(yè)務趨勢
隨著技術逐步落地,L2及L2+級別輔助駕駛的滲透率持續(xù)提升,預計今年將達到80%。由此帶來以下變化,其一,模型架構由模塊化向一站式演進,并進一步發(fā)展為VLM、VLA架構,模型參數(shù)規(guī)模突破PB級;其二,數(shù)據(jù)采集方式從傳統(tǒng)模式轉向百萬級量產(chǎn)車與AIGC生成數(shù)據(jù)相結合,訓練數(shù)據(jù)量提升至每日PB級;其三,受市場競爭加劇影響,訓練迭代周期從周級縮短至天級。未來,隨著L3、L4級自動駕駛政策的落地實施,技術發(fā)展將推動廠商向端到端及VLA技術路線轉型,這些轉變對數(shù)據(jù)規(guī)模與迭代效率提出了更高要求,算力將成為車企競爭的核心要素。

圖源:演講嘉賓素材
我們到2028年中國汽車行業(yè)云端AI算力需求增量將達100 EFlops。基于L2、L2+向L3級智能駕駛訓練的發(fā)展路徑,可得出結論,需實現(xiàn)十倍規(guī)模擴張、十倍可靠性提升及終極迭代能力,同時處理百倍級數(shù)據(jù)量,方能優(yōu)化輔助駕駛算法并在市場競爭中占據(jù)優(yōu)勢。因此,算力供應的穩(wěn)定性與持續(xù)性將成為關鍵保障。
無論是E2E模型還是VLA模型,均對算力規(guī)模及網(wǎng)絡性能提出了顯著要求。以VLA模型為例,預計需實現(xiàn)10萬張計算卡的部署與調(diào)度。
高效的數(shù)據(jù)挖掘與標注驗證是構建智能駕駛數(shù)據(jù)閉環(huán)體系的基礎。一是在數(shù)據(jù)挖掘方面,當前已積累海量數(shù)據(jù),而多模態(tài)大模型的數(shù)據(jù)生成過程需依托高性能AI算力平臺支撐;二是在數(shù)據(jù)標注環(huán)節(jié),傳統(tǒng)手工標注方式在準確性與一致性上已無法滿足端到端輔助駕駛算法需求,同時路測驗證難以覆蓋全部危險場景。因此,需具備高性能AI場景生成能力以提升測試場景覆蓋率。
總體而言,智駕大算力集群的建設與使用,對架構設計、運行效率、資源調(diào)度及生態(tài)協(xié)同提出了更高要求。面對千卡、萬卡級集群規(guī)模,需確保主干網(wǎng)絡具備高擴展性與卓越性能,同時實現(xiàn)故障快速監(jiān)測與高可靠性恢復。在訓練推理效率層面,應追求高性能計算與高速通信能力,并構建良好的生態(tài)體系以支持業(yè)界主流模型。
鑒于各車企已部署大量GPU、NPU等多元算力資源,需建立統(tǒng)一的訓推資源管理體系,實現(xiàn)異構資源的協(xié)同調(diào)度與高效利用,最終達成系統(tǒng)高可靠性目標。針對算子開發(fā)、精度定位及性能調(diào)優(yōu)等環(huán)節(jié)存在的技術難點,應提供開源融合算子參考方案,實現(xiàn)精度自動檢測與業(yè)務無中斷調(diào)優(yōu)。此外,需與主流框架生態(tài)深度適配,確保系統(tǒng)開箱即用。
昇騰智能駕駛解決方案
昇騰AI秉持軟硬件協(xié)同的全棧開放理念,為國內(nèi)市場提供第二算力選擇。其技術體系覆蓋基礎處理器、Atlas系列服務器與集群、CAN計算架構及AI框架MindSpore,全面對標國際主流廠商的技術標準與生態(tài)體系。通過底層軟硬件全棧兼容能力,昇騰AI已實現(xiàn)萬卡級集群與萬億參數(shù)模型訓練支持,具備40天持續(xù)運行不中斷的穩(wěn)定性,并達成95%故障在10分鐘內(nèi)響應恢復的可靠性指標。在生態(tài)開放方面,系統(tǒng)全面支持業(yè)界各類框架加速庫,適配100+基礎模型,配套全流程工具鏈,可實現(xiàn)主流場景算法的快速遷移部署。憑借軟硬件協(xié)同優(yōu)化,我們的性能指標達到國內(nèi)外行業(yè)領先水平。
自2018年華為發(fā)布全場景全棧AI技術以來,持續(xù)深耕人工智能領域,昇騰AI始終堅定投入AI產(chǎn)業(yè)建設。近期,我們推出超節(jié)點集群架構及智駕Drive SDK等新一代技術解決方案,進一步拓展AI技術應用邊界。
昇騰AI算力全面覆蓋智能駕駛訓練、標注、脫敏等全業(yè)務流程。在訓練場景中,我們推出Atlas系列訓練服務器,可支撐大模型規(guī)模化訓練需求;針對中心推理及數(shù)據(jù)預處理標注環(huán)節(jié),提供Atlas 800I A2等推理服務器解決方案。
面向智能駕駛預訓練與后訓練場景,昇騰構建了高可靠、高可用、高易用的AI訓練體系。該體系采用自上而下的技術架構:通過分布式加速套件MindSpore、智駕專用訓練SDK、AI框架及芯片使能層,結合集群硬件基礎設施,配套全流程開發(fā)工具鏈MindStudio與集群計算自動化引擎CCAE的智能運維,實現(xiàn)了性能、可用性與易用性的協(xié)同優(yōu)化。其中,硬件設計與Transformer架構性能已達到或超越行業(yè)平均水平;高可用性方面,大規(guī)模集群平均修復時間控制在30分鐘以內(nèi);高易用性層面,算子開發(fā)與模型遷移效率顯著提升;在大規(guī)模集群部署中,算力、存儲與網(wǎng)絡的協(xié)同效率保持行業(yè)領先。

圖源:演講嘉賓素材
面向智駕不同發(fā)展階段的技術需求,昇騰AI提供分層化的開發(fā)支持方案。針對模塊化端到端架構,推出Driving SDK開發(fā)套件;面向座艙多模態(tài)交互及一體化端到端VLM/VLA架構,除提供專用SDK外,還發(fā)布MindSpeed多模態(tài)套件及其RL開源高性能框架,支持多模態(tài)內(nèi)容生成、理解及強化學習任務。
昇騰Driving SDK開發(fā)套件是專為自動駕駛領域設計的NPU高性能算子與加速庫接口體系,支持PyTorch框架無縫集成,通過一鍵式路徑遷移實現(xiàn)分鐘級模型適配。該套件通過算子級優(yōu)化使全網(wǎng)絡性能提升30%,在開源開放模式下,開發(fā)者效率提升20%。作為開源項目,華為誠邀行業(yè)開發(fā)者與科研機構共同參與生態(tài)建設,推動算法創(chuàng)新形態(tài)演進。
Driving SDK全面覆蓋業(yè)界主流的感知、規(guī)劃控制及E2E算法,其典型模型性能已達到或超越行業(yè)平均水平。后續(xù)我們將持續(xù)擴展算子模型庫,通過商業(yè)合作項目快速響應客戶需求,確保性能開箱即用并實現(xiàn)持續(xù)優(yōu)化。
MindSpeed MM多模態(tài)套件為智能駕駛數(shù)據(jù)閉環(huán)及大模型訓練提供高性能加速支持。該套件預置10個主流多模態(tài)大模型,具備極致性能表現(xiàn),功能覆蓋預訓練、微調(diào)、在線推理及在線評估等全流程。同時支持靈活構建多模態(tài)生成與理解模型,并提供可擴展的組件化架構設計。
場景加速方面,我們通過集成MindSpeed Core基礎加速算法,顯著增強了多模態(tài)場景的加速性能。同時,基于RL后訓練高性能框架,實現(xiàn)了訓練腳本的開箱即用,并全面支持主流RL算法。該框架具備快速構建訓練環(huán)境的能力,支持多模態(tài)數(shù)據(jù)處理的并行化,并實現(xiàn)了與沙箱環(huán)境的交互式訓練。在高性能RL加速方面,我們開發(fā)了多種昇騰親和的優(yōu)化特性,包括高性能調(diào)度框架與尋優(yōu)算法,同時提供了RL算子層的深度加速支持。
MindSpeed與PyTorch框架深度協(xié)同優(yōu)化,經(jīng)過多輪高強度性能調(diào)優(yōu),全面支持智能駕駛多模態(tài)生成與理解模型。經(jīng)測試驗證,優(yōu)化后的主流模型性能提升超過10%,部分關鍵模型性能提升幅度達20%。
MindCluster是昇騰面向大規(guī)模集群打造的可靠訓練解決方案,通過超大規(guī)模集群調(diào)度技術,突破K8s架構單集群5000節(jié)點的規(guī)模限制,實現(xiàn)大規(guī)模訓練任務分鐘級快速啟動。在斷點續(xù)訓能力方面,支持從算子級無感恢復到作業(yè)級分鐘級恢復,顯著縮短故障恢復時間。在彈性訓練層面,通過靈活可靠的動態(tài)擴縮容機制,使集群整體可用度提升5%。
昇騰通過完善全流程工具鏈配套,支持主流算法的快速遷移部署。實際應用案例顯示,該體系可實現(xiàn)5分鐘內(nèi)生成算子支持度分析報告,通過一鍵式代碼遷移工具,平均僅需1個工作日即可完成模型精度訓練,為天級迭代效率提供關鍵技術保障。

圖源:演講嘉賓素材
通過ONNX統(tǒng)一轉換技術,昇騰實現(xiàn)了從云端訓練到車端部署的全流程工程落地。在中心訓練環(huán)節(jié),昇騰訓練所得模型性能可對標GPU訓練結果,經(jīng)ONNX格式轉換后,可無縫部署至車端異構硬件平臺。目前,業(yè)界已成功驗證昇騰至昇騰、昇騰至地平線、昇騰至英偉達等多條跨平臺部署路徑的工程化落地。
昇騰智能駕駛落地案例與生態(tài)合作
昇騰通過賦能華為云與乾坤ADS,構建了大規(guī)模算力集群,成功支撐千億參數(shù)模型完成40天持續(xù)穩(wěn)定訓練,故障恢復能力達到行業(yè)領先水平:依托全棧故障模式庫,95%的故障可在分鐘級內(nèi)完成檢測;通過三級故障快速恢復架構,實現(xiàn)絕大多數(shù)業(yè)務場景的無感斷點續(xù)訓,確保訓練任務40天零中斷運行,性能指標優(yōu)于業(yè)界平均水平。
此外,昇騰澎湃算力為數(shù)據(jù)服務、標注服務及仿真服務提供強力支撐:在多模態(tài)數(shù)據(jù)融合、海量數(shù)據(jù)處理等場景中,可快速定位問題并實現(xiàn)性能調(diào)優(yōu);通過真實場景向仿真環(huán)境的高效轉換,結合自動標注工具覆蓋全場景需求,使大模型標注效率顯著提升,智能標注技術進一步降低人工干預強度;在3D仿真場景重建方面達到厘米級精度,同時對corner case具備快速響應與強適配能力。

圖源:演講嘉賓素材
今年4月,昇騰ADS 4.0正式發(fā)布。為支撐高速場景下的L3級自動駕駛試點落地,系統(tǒng)引入WEVA一段式端到端全新架構,通過世界模型實現(xiàn)AI自我進化機制。隨著世界行為模型復雜度持續(xù)提升,對智能駕駛訓練推理集群的算力與效率提出更高要求。昇騰憑借萬卡級集群算力與Driving SDK開發(fā)套件,成功保障ADS 4.0快速迭代與如期發(fā)布,有力推動了問界M9、M8及尊界等車型的市場熱銷。
在生態(tài)建設層面,昇騰全面兼容智能駕駛領域主流開發(fā)框架、加速庫及第三方開源社區(qū),包括PyTorch、OpenMMLab、DeepSpeed等核心組件。這是昇騰經(jīng)過四年持續(xù)投入形成的完整技術生態(tài)體系。
在商業(yè)生態(tài)構建層面,華為每年投入專項生態(tài)資金,助力商業(yè)伙伴實現(xiàn)可持續(xù)的商業(yè)成功。技術賦能方面,通過構建全場景課程體系,為合作伙伴開發(fā)者提供深度技術培訓與持續(xù)創(chuàng)新支持。
當前汽車產(chǎn)業(yè)正加速向智能化、AI化轉型,各業(yè)務場景與應用環(huán)節(jié)均呈現(xiàn)算力需求激增態(tài)勢。針對行業(yè)存在的多系統(tǒng)煙囪式架構痛點,我們建議汽車產(chǎn)業(yè)構建統(tǒng)一技術架構、數(shù)據(jù)規(guī)范及開發(fā)平臺,聚焦打造標準化人工智能中間平臺,實現(xiàn)上層應用快速開發(fā)與下層業(yè)務數(shù)據(jù)高效對接。華為將提供算力底座、AI基礎硬件及軟件平臺,聯(lián)合生態(tài)伙伴共同為車企提供端到端智能化解決方案。
圍繞汽車行業(yè)AI全場景創(chuàng)新,華為昇騰愿與中國汽車產(chǎn)業(yè)深度協(xié)同,共同構建智能駕駛新時代的技術生態(tài),為中國汽車產(chǎn)業(yè)智能化轉型貢獻核心技術與產(chǎn)業(yè)協(xié)同力量。