自動駕駛領(lǐng)域的佼佼者Waymo近日透露,其正在研發(fā)一種全新的訓練模型,該模型基于谷歌的多模態(tài)大語言模型Gemini。這一動態(tài)標志著Waymo在自動駕駛技術(shù)上的又一次重大突破,旨在為其機器人出租車提供更強大的智能決策能力。
Waymo發(fā)布的研究論文中詳細介紹了這一名為“端到端多模態(tài)自動駕駛模型”(EMMA)的新技術(shù)。與傳統(tǒng)的自動駕駛系統(tǒng)相比,EMMA模型能夠更有效地處理傳感器數(shù)據(jù),并生成車輛未來的行駛軌跡,從而協(xié)助無人駕駛車輛做出更為精準的決策。
值得注意的是,這是自動駕駛領(lǐng)域首次嘗試將多模態(tài)大語言模型應(yīng)用于實際業(yè)務(wù)中。此舉不僅展示了Waymo在技術(shù)創(chuàng)新上的領(lǐng)先地位,也預(yù)示著多模態(tài)大語言模型在自動駕駛領(lǐng)域的廣闊應(yīng)用前景。
傳統(tǒng)的自動駕駛系統(tǒng)往往采用模塊化的設(shè)計方式,這種方式雖然在過去取得了一定的成效,但在面對復(fù)雜多變的環(huán)境時,其可擴展性和適應(yīng)性均顯得捉襟見肘。而像Gemini這樣的多模態(tài)大語言模型則具有更強的通用性和推理能力,能夠有效解決這些問題。
據(jù)Waymo介紹,EMMA模型在復(fù)雜環(huán)境下的表現(xiàn)尤為出色。例如,在遇到動物穿越道路或道路施工時,該模型能夠幫助無人駕駛汽車迅速找到最佳的行駛路徑。
與此同時,特斯拉等其他自動駕駛領(lǐng)域的巨頭也在積極探索端到端模型的應(yīng)用。然而,Waymo憑借其強大的技術(shù)實力和豐富的研發(fā)經(jīng)驗,在這一領(lǐng)域顯然已經(jīng)走在了前列。
當然,EMMA模型也并非完美無缺。Waymo坦言,在將該模型正式投入應(yīng)用之前,仍需要進行大量的研究工作。例如,如何降低模型處理3D傳感器輸入時的計算開銷,以及如何提高模型處理圖像幀的效率等,都是未來需要重點攻克的難題。
多模態(tài)大語言模型在自動駕駛領(lǐng)域的應(yīng)用還面臨著另一大挑戰(zhàn),即如何確保模型的輸出結(jié)果的準確性。由于無人駕駛汽車的容錯率極低,因此任何微小的誤差都可能導致嚴重的后果。這就要求在將這些模型大規(guī)模應(yīng)用于實際場景之前,必須進行更為深入和細致的研究。