在2025年國際消費類電子產(chǎn)品展覽會(CES2025)上,包括英偉達(dá)、谷歌,、世界實驗室等多家全球頭部科技企業(yè)集體宣布入局人工智能領(lǐng)域當(dāng)下最關(guān)鍵的方向——世界模型(WorldModels),。
所謂世界模型,最早出現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域,,專為物理交互、模擬工業(yè)環(huán)境和駕駛環(huán)境的高質(zhì)量生成而構(gòu)建。現(xiàn)階段,,世界模型主要用于生成逼真的視頻訓(xùn)練機(jī)器人和自動駕駛汽車,并通過創(chuàng)建合成訓(xùn)練數(shù)據(jù),,幫助機(jī)器人和汽車?yán)斫馕锢硎澜纭?/p>
世界模型為何備受矚目,?首先基于“自主決策”。相比語言模型還停留在理解人類語義階段,,世界模型則從一維形式的數(shù)字智能走向三維形式的空間智能,,開始理解真實的物理世界,創(chuàng)建對世界運作方式的內(nèi)部表征,,理解現(xiàn)實世界的規(guī)律,,并據(jù)此推理行為的后果,這種潛意識里的推理和決策,,被認(rèn)為是實現(xiàn)人類級智能的先決條件之一,。
其次則緣于成本,。自動駕駛的成長需要海量數(shù)據(jù)“喂養(yǎng)”,依靠豐富,、復(fù)雜的場景進(jìn)行“錘煉”,。然而,現(xiàn)實測試中危險場景和長尾數(shù)據(jù)稀缺,,3D重建又成本高,、效率低。因此,,采用合成數(shù)據(jù)來助力自動駕駛模型訓(xùn)練成了有效的解決方案——世界模型正是這樣的場景生成和預(yù)測工具,,自己“造數(shù)據(jù)”,可以用于場景數(shù)據(jù)增強(qiáng),、危險場景生成,、算法評測等應(yīng)用,有效降低自動駕駛研發(fā)中訓(xùn)練數(shù)據(jù)成本,。
筆者認(rèn)為,,在自動駕駛領(lǐng)域,我們可以通過世界模型生成帶有預(yù)測性質(zhì)的視頻數(shù)據(jù),,實現(xiàn)極端情況下的多樣化訓(xùn)練,;讓世界模型采用強(qiáng)化學(xué)習(xí)的方法認(rèn)識復(fù)雜駕駛環(huán)境,通過視頻輸出駕駛決策,。
盡管世界模型在理論上具有巨大潛力,,但在實際應(yīng)用中仍然存在不確定性。例如,,環(huán)境模擬的準(zhǔn)確性極大地依賴于模型復(fù)雜度和數(shù)據(jù)質(zhì)量,,要精確地預(yù)測復(fù)雜環(huán)境中的動態(tài)變化,需要大量的數(shù)據(jù)和強(qiáng)大的計算資源,,這需要龐大成本且漫長的周期方能實現(xiàn),。此外,在不同的應(yīng)用場景中調(diào)整模型參數(shù)以適應(yīng)特定的需求等問題也需要進(jìn)一步研究,、探索,。
但無論如何,世界模型勢必將成為汽車智能化的一道分水嶺,,其在場景生成,、模型訓(xùn)練、仿真測試,、數(shù)據(jù)閉環(huán)等方面的獨特優(yōu)勢,將推動包括自動駕駛,、機(jī)器人等在內(nèi)的人工智能應(yīng)用迎來高光時刻,。