7月14日消息,在2024中國汽車論壇上,地平線總裁陳黎明發表了主題為《產研向高而行,解鎖高階智駕新思路》的演講。
陳黎明本次演講的核心觀點包括:
1、2025年,自動駕駛將迎來ChatGPT時刻。當下的城區NOA大部分還處于可用階段,還沒有達到好用的階段。
2、真正“好用”的智駕2.0的系統,要提供擬人化的智駕體驗。用戶亟需好用的城區NOA 2.0系統,需要實現通行效率、駕駛擬人、場景通過率的全面突破。
3、智駕系統要做到“好用”,要解決“Scale Out”和“Scale Up”難題。所謂scale up,在特定、固定、受控的小ODD范圍內實現性能最優,能夠處理很多復雜的場景。追求的目標,是要實現在一個能夠scale up更好的上限,同時在所有的地方都能夠開。要解決這個問題核心的要素就是四個:算法、算力、數據、工程能力。算法是決定了整個系統的性能的上限,算力和數據是決定了技術迭代速度,工程能力決定了整個量產化的規模和用戶的體驗。
4、從規則驅動到數據驅動,算法技術迭代的“蹺蹺板效應”無法全面提升系統能力。無論是基于規則,還是數據驅動的端到端系統,單一都無法全面提升系統能力,不得不在系統上限的提升和系統下限的保障二者之間做取舍。
以下為陳黎明演講全文:
尊敬的各位嘉賓、各位業界同仁,大家上午好!我是地平線陳黎明,今天要給大家匯報的題目是:產研向高而行,解鎖高階智駕新思路。
首先我們來看一下,大家都知道現在正處在新能源汽車下半場,也就是我們講的高階自動駕駛和智能座艙。我們看到目前20萬以上的車NOA的配備率還在不斷的增加,從22年到23年,20到30萬之間的車NOA的裝配率增長了24個百分點,30萬以上的車NOA的裝配率增長了19個百分點。而且今年目前我們看到大概前十個高端車型當中有八款都配備了NOA,所以我們看到高階自動駕駛正在迎來增長的拐點。
另外我們再來看一下關于行業里近期熱聊的端到端。大家都知道2022年初的時候openAI的ChatGPT在AlphaGo之后又帶來了很大的驚喜,充分展現了AI的能力和巨大的潛能,今年特斯拉推出了基于端到端大模型的FSD v12.3,在自動駕駛領域也給我們比較驚艷的亮相,讓我們看到了端到端大模型在自動駕駛應用上的潛能,并且開始落地。
我們認為,2025年,自動駕駛將迎來ChatGPT 時刻。
什么是ChatGPT時刻?我們認為它不光是整個的性能,最關鍵的是產品的體驗,是產品的可用性與好用性。
目前我們看到當下的城區NOA大部分還處于可用階段,還沒有達到好用的階段。主要的問題還是在于比較“慫”,還有一個問題是比較魯莽,再有一個是通過率比較低。
我們都知道終端用戶需要一個更好用的智能駕駛系統。它應該是能夠帶來更加擬人的智駕感受。我們講的智能駕駛1.0“可用”,只是解決了物理安全的問題。“好用”不但要解決物理安全的問題,還要解決用戶心理安全的問題。所以在實現通行效率、擬人駕駛、場景通過率方面都要進行全面的突破。
當然除了“好用”之外,還要做到"愛用",需要進一步普及到每個用戶,使得每個人都可以用,就是我們講的高階自動駕駛的平權化。這些思考不僅僅是技術思維,更多的是產品思維、是用戶價值思維。以用戶價值為先,驅動我們去解鎖高階智駕新思路。
要解決“好用”的問題,我們認為首先要解決自動駕駛的scale up和scale out的難題。所謂scale up,在特定、固定、受控的小ODD范圍內實現性能最優,已經達到了很高的性能,能夠處理很多復雜的場景。但是在于廣泛的場景應用里面,我們能夠看到性能的上限非常的低,就是剛才我們講的慫、魯莽這些行為。使得整個自動駕駛的應用還受限于一些相對小的范圍,在大范圍上體驗不好。
我們追求的目標是要實現在一個能夠scale up更好的上限,同時在所有的地方都能夠開。
要解決這個問題核心的要素就是四個:算法、算力、數據、工程能力。算法是決定了整個系統的性能的上限,然后算力和數據是決定了技術迭代速度。工程能力決定了整個量產化的規模和用戶的體驗。
我們看一下算法方面,目前兩大主要的開發范式:一個是基于Rule-based,我們講的是Conventional開發范式,Software 1.0。還有一個基于數據驅動的開發范式,業界叫做Software 2.0。兩個各有利弊,軟件1.0基于大量人工規則,系統上限低,下限可控;軟件2.0,數據驅動的端到端系統,實現信息無損傳遞,系統上限高,而下限不可控。所以這里就出現了兩種開發范式和路徑的“翹翹板”,無論是rule-based,還是數據驅動的端到端系統,單一都無法全面提升系統能力,不得不在系統上限的提升和系統下限的保障二者之間做取舍。
對于自動駕駛來說,我們既要能夠有很好的技術體驗,同時又要非常安全,再加上能夠快速地去推廣應用,這是我們的既要又要且要。
從地平線來講,我們認為采用一個端到端和交互博弈的解決方案,能夠比較好地解決scale out和scale up的難題。我們采用了“三網合一”的端到端大模型,在這個大模型里面它能夠把傳感器的數據和地圖和導航信息輸入大模型進行訓練。在這個模型里面它通過不丟失信息的情況下對周邊世界進行更好的感知,通過動靜態的推理還有數據的訓練,能夠產生出動靜態目標。除此之外還能夠輸出一個機器能讀懂的高維特征級信息,給到下一個模塊,也就是交互博弈模塊。這個模塊有兩個部分組成:一個是神經網絡的模塊,再一個是基于Rule-based的模塊。神經網絡能夠提高整個系統上限,同時基于Rule-based的模塊可以做好安全兜底,確保系統下限。
通過“三網合一”端到端,再加上交互博弈架構和算法,能夠比較好的解決scale out和scale up。
地平線作為一家軟件算法基因出身的公司,我們首先考慮問題還是從軟件的方面考慮怎么解決自動駕駛的問題。在過去九年當中,地平線在創新技術方面也有很多的積累,在這里給大家做幾個分享。
2022年地平線提出了Sparse4D的架構,它是行業比較領先的高性能,高效率,長時序、純稀疏融合感知架構,它通過長時序純稀疏還有端到端很好解決了之前或者現在用的BEV+Transformer架構里面的感知范圍和精度以及與計算效率的矛盾,打造了一個比較好的端到端的感知基座。同時它在各方面的性能表現都遠好于其他的架構,特別是在nuScenes公開數據集排行榜第一。所以它是接棒“BEV+Transformer”的下一代架構。通過和BEVFormer的對比,可以看到在夜間城區密集人群的精準感知、遠距離及時感知的場景下,Sparse4D的感知結果都更精準。
另外地平線學者在2022年底的時候發表了一篇自動駕駛大模型UniAD的文章,也是首次實現了整體框架下的端到端訓練。在9000多篇論文里面獲得了去年計算機視覺和模式識別CVPR大會的最佳論文,這也是第一次自動駕駛領域的文章在CVPR年會上獲得最佳論文。
UniAD它首次將檢測、跟蹤、建圖、軌跡預測、占據網格預測以及規劃整合到一個基于Transformer框架里面的大模型里面,實現感知的一體化,它相對于黑盒的我們講的端到端,它更可控、可解釋、可拓展,是一個比較好的架構。它在NuScenes數據集上獲得了SOTA (state of the art),評測結果最優。同時,我們這個算法也在業界作為一個Benchmark,當下產業界的很多端到端都有受UniAD啟發開啟端到端的上車應用,學術與科研界也以UniAD作為標桿去benchmark。
除此之外,同時地平線還采用了模仿強化混合學習技術,在這方面進行深度創新和積累,使得整個自動駕駛更擬人、更安全。
基于模仿的開環學習方式不能很好的解決長尾問題。交互式的規控學習采用混合強化學習方式,一方面通過模仿學習提高學習效率,另一方面通過閉環強化學習克服模仿學習在長尾等方面存在的缺陷,可以很好地解決長尾問題。這樣使得整個交互博弈當中能夠更好的進行跟周邊的交互,同時實現更好的擬人性,整個安全性和舒適度都得到了很大的提升。
那么再好的算法如果沒有相應的芯片來承載,實際上是無法變成產品的。所以接下來我就介紹一下地平線在硬件、技術和產品方面的最新的一些結果。
這個是地平線2016年提出來一個“智能計算的新摩爾定律”。
這個為我們地平線也是為其他行業的同仁提供了一個芯片設計和性能提升的方向,定義智能計算最優解。新摩爾定律的公式也很簡單,是一個簡單的乘法。就是說我把單位成本下的計算性能作為目標,把這個目標分解成三個因子:
第一個因子就是大家耳熟能詳的TOPS per dollar,花每塊錢能買多少算力,這是經典的理論峰值計算效率,通常來講要靠兩件事情來做到,第一個就是摩爾定律,第二就是創新型的硬件架構設計;
第二個指標是叫Utilization rate(有效利用率),有了計算資源,怎么樣充分利用?涉及到編譯器、Runtime等等軟件和硬件的協同優化,充分提升計算利用率;
第三是算法效率。每TOPS算力上能實現的算法效率,這取決于算法先進性來實現計算效率提升。
可以說,地平線“三項全能”——在硬件的架構、軟件中間層的優化、算法的創新上,都聚焦于軟硬協同,永遠以更低的成本去獲得更高的計算性能。
前面講了我們在算法上有很多的積累,這些積累就是指導我們去設計我們的硬件架構。
這體現在這幾個方面,一個是通過三級存儲架構,多脈動的立方加速引擎,還有多項數據流動等等來減少核內核間以及片間的數據的流動,提高它的使用率,同時降低對帶寬的占用。另外通過虛擬化,數據變換引擎等等這些,來支持先進的算子和加速計算。同時通過所有這些優化,大大降低對計算的功耗,也使得我們整個芯片的性能能夠保持在一個非常好的水平。
軟硬結合,超越摩爾定律。我們再來看一下“新摩爾定律”帶來性能的提升,左邊是傳統的摩爾定律,在6年可以看到它的性能提升16倍。基于軟硬結合的“新摩爾定律”,我們BPU的計算性能對于傳統主流的CNN神經網絡它在6年里面提升了246倍。對于現在的Transformer來講,在三年里面提升了27倍。實際上我們通過軟件和硬件的優化,遠超摩爾定律提升的速度。
總結一下,我們用軟硬結合的技術實力推動智能駕駛從“可用”到“好用”最后到“愛用”。最主要的是通過端到端的技術,通過深度學習人類的駕駛行為和擬人的體驗帶來心理安全,更加擬人、更像老司機。通過交互博弈,通過舉一反三處理極限的場景,更好的適應客觀世界的復雜性,能夠做到每時每刻。
再就是通過我們產品BPU,我們的芯片,提升它的性能,同時降低成本,來使得我們的高階自動駕駛更快的普及到我們每個駕駛員,使得每個人都可以用得起。
接下來我再把通過我們技術的積累,最新的產品給大家做一個介紹。今年四月份我們發布了兩款產品,一個是硬件產品,一個是軟件產品。硬件產品就是征程6系列,相對于之前的三代產品征程2、征程3、征程5都是單芯片,征程6是一個家族,總共有6款芯片,主要覆蓋低中高階智能駕駛應用。所以在整個智能駕駛的應用當中,總有一款芯片適合我們的合作伙伴,它帶來的好處是基于同樣的開發環境、
開發工具鏈能夠大大提升我們合作伙伴的開發效率,同時降低開發成本,能夠加速整個自動駕駛的應用落地。
再一個我們發布了第二個產品,我們叫做Horizon SuperDrive,這個是全場景智能駕駛解決方案,我們希望基于我們的軟件、算法研究還有我們最新芯片的基礎上打造一個“樣板間”,充分展現在技術上限上,自動駕駛能夠解決什么樣的問題,能夠怎么樣更好的來解決我們目前遇到的很多困難的場景。通過我們三網合一端到端的技術,還有交互博弈,還有征程6的芯片,我們追求的是像老司機一樣優雅和從容的駕駛。它會覆蓋全場景,包括城區、高速和泊車產品,實現全場景無差別的高階智駕。
下面看一下我們的SuperDrive在復雜場景里面的表現,左上角是交通很擁堵的時候換道,是我們自車和其他汽車的博弈,我們的系統實在過不去會讓一下,如果有縫就會很自信的插進去。
第二個是路口的左轉交互博弈,大家可以看到車流量很大,這個場景化左邊的車實際上很多,這個時候要見縫插針能夠轉過去,沒有一定的技術的上限,沒有這種自信,你是沒有辦法在這個情況下進行左轉的。
右邊是一個城區,城市里面的一個環島,這個里面也是非常復雜的場景,它有反向的車、也有人,有一些場景你是沒有辦法第一時間看到,這個時候需要車跟路上的博弈,跟路邊的行人、車輛等等博弈。
左下是在擁堵路況下,精準搜索匯入空擋,高效安全博弈,成功匯入主路。
右下是禮讓行人,需要比較篤定能夠自信開的時候,它能夠去博弈,需要謙讓的時候必須要禮讓行人和其他的道路的使用者。
目前在過去的九年里面,我們的產品也得到了主機廠的認可,目前我們跟100多個合作伙伴一起服務20多家主機廠。目前我們有差不多230多個量產開發項目,有110多款車型已經量產。目前我們已經出貨了500萬片芯片給客戶,也積累了百億公里的駕駛里程,為客戶提供安全的駕駛體驗。
地平線是堅定的定位Tier2,我們還是希望攜手行業所有的伙伴一起,來推動自動駕駛向高而行,通過我們的硬件和算法賦能我們的合作伙伴,與我們的合作伙伴一起,共同讓自動駕駛可用、好用,使我們的用戶更愛用。
最后,地平線希望跟我們的合作伙伴一起。征程與共,開放共贏!
我的分享就到這里,謝謝大家!