文章摘要: 蘋果通過GIGAFLOW架構(gòu),實(shí)現(xiàn)自動(dòng)駕駛技術(shù)的突破性進(jìn)展,以高效自監(jiān)督訓(xùn)練機(jī)制累積海量模擬駕駛經(jīng)驗(yàn),展現(xiàn)出卓越的零樣本泛化能力,為自動(dòng)駕駛的未來開辟了新路徑,但仍需面對現(xiàn)實(shí)道路驗(yàn)證與技術(shù)融合的挑戰(zhàn)。一天訓(xùn)練950年駕駛經(jīng)驗(yàn),蘋果讓自動(dòng)駕駛自己“修仙”
蘋果通過GIGAFLOW架構(gòu),實(shí)現(xiàn)自動(dòng)駕駛技術(shù)的突破性進(jìn)展,以高效自監(jiān)督訓(xùn)練機(jī)制累積海量模擬駕駛經(jīng)驗(yàn),展現(xiàn)出卓越的零樣本泛化能力,為自動(dòng)駕駛的未來開辟了新路徑,但仍需面對現(xiàn)實(shí)道路驗(yàn)證與技術(shù)融合的挑戰(zhàn)。
一天訓(xùn)練950年駕駛經(jīng)驗(yàn),蘋果讓自動(dòng)駕駛自己“修仙”。
蘋果于機(jī)器學(xué)習(xí)研究頁揭秘自動(dòng)駕駛新進(jìn)展,一日之內(nèi)累積950年駕駛智慧,仿佛讓汽車踏上“修仙”之旅。
這篇論文的突破性貢獻(xiàn)在于它創(chuàng)造性地推出了一款名為GIGAFLOW的全新大規(guī)模自博弈強(qiáng)化學(xué)習(xí)架構(gòu),并有力證實(shí)其能高效培育出既通用又具備高度穩(wěn)定性的駕駛方案。 從數(shù)據(jù)層面來看,借助這一革命性的自監(jiān)督訓(xùn)練機(jī)制,僅僅十天便能累積16億公里的模擬里程,這相當(dāng)于人類駕駛者9500年的行駛經(jīng)驗(yàn)。換算到單日,則意味著每天可模擬出1.6億公里的行程與950年的駕駛智慧。 更引人矚目的是,這樣的訓(xùn)練成本極為經(jīng)濟(jì),每百萬公里的模擬費(fèi)用不到5美元(約36.1元人民幣),并且全程無需依賴真實(shí)世界的數(shù)據(jù)采集。 此番研究的發(fā)布,無疑昭示著蘋果雖已揮手告別電動(dòng)汽車制造領(lǐng)域,但對汽車行業(yè)的熱情與探索并未因此熄滅。或許在不久的將來,蘋果會(huì)在自動(dòng)駕駛技術(shù)的舞臺(tái)上,再度祭出令人瞠目的創(chuàng)新之作。 回溯蘋果的汽車制造之旅,其始于2008年喬布斯親自掛帥的“泰坦計(jì)劃”。歷經(jīng)數(shù)次戰(zhàn)略轉(zhuǎn)型、團(tuán)隊(duì)重構(gòu)與領(lǐng)導(dǎo)層的更迭,蘋果的目標(biāo)逐漸由全自動(dòng)駕駛車輛向技術(shù)深耕偏移。然而,由于戰(zhàn)略定位模糊與執(zhí)行層面的乏力,蘋果始終未能拿出令人信服的產(chǎn)品。 直至2024年初,蘋果終于宣布終止電動(dòng)汽車開發(fā)項(xiàng)目。據(jù)媒體披露,該項(xiàng)目已至少吞噬了蘋果100億美元(約721億元人民幣)的資金。這一決定不僅令人扼腕,也觸動(dòng)了馬斯克、雷軍等科技界大佬的深切感慨。
GIGAFLOW——自博弈訓(xùn)練設(shè)計(jì)的新星 它以高效獲取訓(xùn)練經(jīng)驗(yàn)為核心,構(gòu)建了一個(gè)專為自博弈而生的高度并行化模擬器與強(qiáng)化學(xué)習(xí)架構(gòu)。GIGAFLOW致力于通過虛擬手段,模擬出覆蓋數(shù)十億公里的駕駛場景,培育出兼容并蓄、應(yīng)對自如的駕駛策略,擺脫了對真實(shí)數(shù)據(jù)的依賴。其并行處理能力驚人,8塊GPU即可驅(qū)動(dòng)3.84萬虛擬環(huán)境同頻共振,每小時(shí)催生4.4億次狀態(tài)更迭,這一速率,足以比擬42載真實(shí)駕駛歲月的積淀。
值得一提的是GIGAFLOW的模擬環(huán)境設(shè)計(jì)簡潔,但通過大規(guī)模自博弈的方式彌補(bǔ)了其設(shè)計(jì)上的簡化。
GIGAFLOW系統(tǒng)采納了8幅基礎(chǔ)地圖,各圖車道綿延4至40公里不等。這些地圖經(jīng)由隨機(jī)化處理,如縮放與鏡像翻轉(zhuǎn),衍生出多樣變體,交織成總長136公里的道路迷宮。在這片虛擬“疆域”里,智能體自隨機(jī)起點(diǎn)啟程,穿梭其間,歷經(jīng)多個(gè)中轉(zhuǎn)站,向隨機(jī)散布的終點(diǎn)進(jìn)發(fā)。
從交互決策的視角審視,這一環(huán)境中智能體(涵蓋車輛與行人等)的最大共存數(shù)量為150,它們遵循同一策略框架,卻能在不同參數(shù)條件下展現(xiàn)出多姿多彩的行為面貌,諸如激進(jìn)型駕駛與合規(guī)型駕駛等。 在訓(xùn)練歷程中,智能體憑借自我對弈的方式,逐步精通了繁復(fù)的駕駛技巧。 這些技巧囊括了在擁堵路段執(zhí)行“拉鏈?zhǔn)健辈⒕€、環(huán)島內(nèi)的協(xié)調(diào)行進(jìn)、狹窄空間中的多點(diǎn)掉頭,以及在遭遇事故或路障時(shí)的路徑重規(guī)劃。 尤為值得一提的是,所有這些精妙技巧均是在無預(yù)設(shè)劇本或人類示范的情形下,通過自我對弈自然而然浮現(xiàn)而出的。
GIGAFLOW在單節(jié)點(diǎn)上展現(xiàn)了驚人的能力,可以模擬3.84萬個(gè)并行環(huán)境,并借助GPU加速的物理計(jì)算和動(dòng)態(tài)狀態(tài)壓縮技術(shù),顯著減少了內(nèi)存消耗與通信成本。就訓(xùn)練資源配置而言,GIGAFLOW的完整訓(xùn)練流程需2000GPU小時(shí),耗時(shí)約10天,總計(jì)算量高達(dá)2.3×10^19FLOP,涵蓋16億公里的訓(xùn)練數(shù)據(jù)。參考AWS p4d實(shí)例(每節(jié)點(diǎn)8 GPU)的定價(jià),整個(gè)訓(xùn)練過程的成本約為4.8萬美元,即人民幣34.56萬元,這一價(jià)格相較于同類強(qiáng)化學(xué)習(xí)方案,展現(xiàn)出極高的性價(jià)比。
除了依賴人類數(shù)據(jù)進(jìn)行模仿學(xué)習(xí)所帶來的高昂標(biāo)注成本外,GIGAFLOW巧妙規(guī)避了此項(xiàng)費(fèi)用。其利用優(yōu)勢過濾技術(shù),通過動(dòng)態(tài)閾值智能剔除低質(zhì)樣本,使反向傳播計(jì)算量銳減約80%。更令人稱奇的是,所有交通參與者,無論是車輛還是行人,均共享同一策略網(wǎng)絡(luò),從而有效避免了多模型訓(xùn)練的龐大開銷。。
此外,GIGAFLOW采用了一種創(chuàng)新手段,即通過預(yù)先離線處理地圖的柵格特征,諸如車道布局與交通信號(hào)位置,來減輕實(shí)時(shí)計(jì)算的負(fù)擔(dān)。盡管如此,GIGAFLOW仍面臨成本方面的掣肘,特別是對高性能8 GPU節(jié)點(diǎn)的依賴,存在實(shí)施難度。要想確保這一策略的穩(wěn)健性,需歷經(jīng)高于15億公里的訓(xùn)練里程,短期訓(xùn)練難以達(dá)成預(yù)期效果。加之車輛動(dòng)態(tài)特性和獎(jiǎng)勵(lì)函數(shù)的即時(shí)隨機(jī)化處理,還會(huì)額外增加約15%的計(jì)算壓力。可以說,GIGAFLOW為自動(dòng)駕駛訓(xùn)練指明了前行方向,但距離實(shí)現(xiàn)“顛覆性”飛躍尚有距離。
能力超越基準(zhǔn)
未來仍有改進(jìn)空間
在基準(zhǔn)測試舞臺(tái)上,GIGAFLOW策略展現(xiàn)出了非凡的零樣本泛化實(shí)力,這一能力在三大自動(dòng)駕駛領(lǐng)域的標(biāo)桿測試中得到了有力證明:CARLA、nuPlan與Waymax。CARLA側(cè)重于工匠級(jí)駕駛場景的設(shè)計(jì),考量長途駕駛的穩(wěn)定性;nuPlan則依據(jù)真實(shí)駕駛記錄,檢驗(yàn)短途駕駛的敏銳度;而Waymax,借助Waymo Open Motion Dataset塑造的模擬天地,挑戰(zhàn)復(fù)雜路況下的駕駛智慧。
測試結(jié)果揭曉,GIGAFLOW策略在各項(xiàng)基準(zhǔn)測試中均力壓專為基準(zhǔn)設(shè)計(jì)的專家模型,彰顯卓越的零樣本泛化實(shí)力。即便未經(jīng)任何基準(zhǔn)特定微調(diào),其表現(xiàn)仍超越那些精心優(yōu)化的模型。于CARLA模擬環(huán)境中,GIGAFLOW策略靈活應(yīng)對行人突發(fā)穿行、擁堵路口等復(fù)雜路況,展現(xiàn)出非凡的應(yīng)對能力。
在nuPlan與Waymax的基準(zhǔn)測評里,GIGAFLOW策略彰顯出流暢且可靠的駕駛表現(xiàn)。深入分析揭示,該策略在維持長時(shí)間駕駛穩(wěn)定性上同樣出類拔萃。在減少動(dòng)態(tài)干擾、提升操控頻次的環(huán)境下,智能體平均行駛1750萬公里才遭遇一次事故,相比之下,美國人類駕駛者的平均事故率則為每82.9萬公里便發(fā)生一次。
除此之外,研究者們對GIGAFLOW策略的行為特質(zhì)進(jìn)行了深刻的剖析,它具備前瞻性的決策智慧,能依據(jù)未來潛在情境(諸如150米外的道路障礙)靈活調(diào)整駕駛動(dòng)作;同時(shí),其駕駛風(fēng)格多變,通過調(diào)整參數(shù)配置,策略能輕松切換從保守至激進(jìn)的多種模式;在涉及多車協(xié)同的復(fù)雜局面(例如車流交匯)中,策略同樣展現(xiàn)出靈動(dòng)且流暢的反應(yīng)。 然而,即便在這一領(lǐng)域取得了顯著成就,項(xiàng)目團(tuán)隊(duì)依然面臨諸多待解之題。誠然,該策略減少了對手動(dòng)數(shù)據(jù)搜集的依賴,能孕育多樣化的駕駛表現(xiàn),但其研究邊界依舊清晰可見。 首要問題在于,純模擬環(huán)境下的訓(xùn)練策略尚未在現(xiàn)實(shí)道路上經(jīng)受檢驗(yàn),其真實(shí)應(yīng)用效果尚屬未知。 再者,研究預(yù)設(shè)感知系統(tǒng)無瑕,但在真實(shí)情境中,傳感器偏差與環(huán)境變量的不確定性或許會(huì)對策略性能造成顯著沖擊。 最后,盡管自博弈展現(xiàn)了出色的泛化潛力,但如何將其與人類數(shù)據(jù)驅(qū)動(dòng)的模仿學(xué)習(xí)巧妙融合,仍是未來探索的重要課題。
蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里
本文由入駐排行8資訊專欄的作者撰寫或者網(wǎng)上轉(zhuǎn)載,觀點(diǎn)僅代表作者本人,不代表排行8立場。不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 paihang8kefu@163.com 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。
法士特商用車雙橋混合動(dòng)力解析
2025-08-18全面解析電動(dòng)汽車充電樁測試方案與自動(dòng)化測試系統(tǒng)
2025-08-18汽車黑科技推薦
2025-08-17聚焦新能源車電池:技術(shù)突破與壽命考量
2025-08-17Model 3 6年行駛15.5萬公里剎車片狀態(tài)如新
2025-08-17