VLA模型,,已經(jīng)成為具身智能當(dāng)前最熱的技術(shù)趨勢(shì),。
近日,,谷歌推出了自身最強(qiáng)大的VLA(Vision-Language-Action,,視覺(jué)-語(yǔ)言-動(dòng)作)模型Gemini Robotics On-Device。據(jù)介紹,,這款機(jī)器人端側(cè)模型運(yùn)行時(shí)無(wú)需依賴數(shù)據(jù)網(wǎng)絡(luò),,可以完全在機(jī)器人設(shè)備本地離線運(yùn)行,并在多種測(cè)試場(chǎng)景中實(shí)現(xiàn)了強(qiáng)大的視覺(jué)、語(yǔ)義和行為泛化能力,,能理解自然語(yǔ)言指令,,并完成拉開(kāi)拉鏈、折疊衣物等高靈巧度任務(wù),。
具身智能領(lǐng)域的關(guān)鍵新范式,,VLA讓機(jī)器人擁有了將語(yǔ)言意圖、視覺(jué)感知與物理動(dòng)作編織成連續(xù)決策流的能力,。記者梳理發(fā)現(xiàn),,今年以來(lái),不僅谷歌,、微軟,、Figure AI等海外公司相繼發(fā)布了自己的VLA模型,銀河通用,、智元機(jī)器人,、自變量機(jī)器人等國(guó)內(nèi)機(jī)器人公司也已在這一領(lǐng)域有所布局。
“機(jī)器人版安卓”,,50次演示即可學(xué)會(huì)新動(dòng)作
今年3月,,谷歌DeepMind團(tuán)隊(duì)首次推出了新一代專為機(jī)器人設(shè)計(jì)的AI模型Gemini Robotics,被視為“機(jī)器人版的安卓”,。
這一模型基于Gemini 2.0打造,如同機(jī)器人的“大腦”,,能夠讓機(jī)器人理解復(fù)雜環(huán)境,、執(zhí)行精細(xì)任務(wù)。在谷歌DeepMind展示的演示視頻中,,Gemini Robotics借助一臺(tái)雙臂機(jī)器人,,能夠流暢地折紙、拉拉鏈,、把皮帶安裝到齒輪上,。
而最新推出的Gemini Robotics On-Device,則是專為在機(jī)器人設(shè)備本地運(yùn)行而優(yōu)化的模型,。業(yè)內(nèi)人士分析稱,,具身智能的發(fā)展一直以來(lái)受限于對(duì)云計(jì)算資源的高度依賴,這使得機(jī)器人在網(wǎng)絡(luò)不穩(wěn)定或無(wú)網(wǎng)絡(luò)的環(huán)境中難以獨(dú)立作業(yè),。同時(shí),,模型體積龐大,在機(jī)器人有限的計(jì)算資源上也難以高效運(yùn)行,。
Gemini Robotics On-Device的發(fā)布,,標(biāo)志著具身智能從依賴云端算力向本地自主運(yùn)行的重大轉(zhuǎn)變,為機(jī)器人產(chǎn)業(yè)的落地應(yīng)用開(kāi)辟了新的路徑,為機(jī)器人在更多場(chǎng)景中的應(yīng)用提供可能,。比如,,機(jī)器人在無(wú)網(wǎng)絡(luò)的工廠精準(zhǔn)裝配零件、在災(zāi)區(qū)廢墟中自主救援,,這些應(yīng)用場(chǎng)景都離不開(kāi)機(jī)器人端側(cè)模型的部署,。
據(jù)介紹,Gemini Robotics On-Device具備三大特點(diǎn):一是專為靈巧操作的快速實(shí)驗(yàn)而設(shè)計(jì),;二能通過(guò)微調(diào)來(lái)適應(yīng)新任務(wù)進(jìn)一步提高性能,;三是經(jīng)過(guò)優(yōu)化,可在本地運(yùn)行并實(shí)現(xiàn)超低延遲推理,。
此外,,谷歌還推出Gemini Robotics SDK,幫助開(kāi)發(fā)者評(píng)估Gemini Robotics在設(shè)備上的性能,,包括在MuJoCo物理模擬器中進(jìn)行測(cè)試,。開(kāi)發(fā)者只需50—100個(gè)演示即可完成模型評(píng)估,讓機(jī)器人快速學(xué)習(xí)新技能,。
VLA成“必爭(zhēng)之地”,,這些國(guó)內(nèi)機(jī)器人公司也布局了
如果過(guò)去十年,機(jī)器人領(lǐng)域的焦點(diǎn)先后經(jīng)歷了“看得見(jiàn)”的視覺(jué)感知,、“聽(tīng)得懂”的語(yǔ)言理解,,那么在VLA模型出現(xiàn)之后,機(jī)器人開(kāi)始走向“動(dòng)得準(zhǔn)”的第三階段,。
當(dāng)下,,VLA模型已逐漸成為具身智能行業(yè)的共識(shí),被視為連接感知,、語(yǔ)言與行為的通用架構(gòu),。今年6月,在2025北京智源大會(huì)上,,Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman表示,,VLA是通往通用智能的重要基石,能夠讓機(jī)器人從互聯(lián)網(wǎng)等多源數(shù)據(jù)中學(xué)習(xí)并轉(zhuǎn)化為具體行動(dòng),。
記者梳理發(fā)現(xiàn),,今年以來(lái),不僅谷歌,、微軟,、Figure AI等海外公司相繼發(fā)布了自己的VLA模型,銀河通用,、智元機(jī)器人,、自變量機(jī)器人等國(guó)內(nèi)機(jī)器人公司也已在這一領(lǐng)域有所布局,。
今年6月1日,銀河通用正式推出自主研發(fā)的產(chǎn)品級(jí)端到端導(dǎo)航大模型TrackVLA,。這是一款具備純視覺(jué)環(huán)境感知,、語(yǔ)言指令驅(qū)動(dòng)、可自主推理,、具備零樣本泛化能力的具身大模型,。而在一周后的2025北京智源大會(huì)上,銀河通用又發(fā)布了全球首個(gè)面向零售場(chǎng)景的端到端VLA大模型GroceryVLA,。
根據(jù)現(xiàn)場(chǎng)展示,,在現(xiàn)場(chǎng)搭建的1比1還原真實(shí)商超場(chǎng)景中,當(dāng)銀河通用創(chuàng)始人兼CTO王鶴向搭載了GroceryVLA的機(jī)器人Galbot發(fā)出“我又熱又餓,,幫我拿點(diǎn)吃的”這一指令后,,Galbot能夠自主精確地移動(dòng)到準(zhǔn)確位置,在貨架中為顧客選擇餅干和飲料等食物,,然后有序地拿取并送到顧客手中,,全程無(wú)遙控操作,并且無(wú)事先采集場(chǎng)景數(shù)據(jù),。
今年3月,,智元機(jī)器人發(fā)布了首個(gè)通用具身基座模型智元啟元大模型(Genie Operator-1,簡(jiǎn)稱GO-1),,該模型采用了Vision-Language-Latent-Action (ViLLA) 架構(gòu),,由VLM(視覺(jué)語(yǔ)言模型)和MoE(混合專家)組成,實(shí)現(xiàn)了可以利用人類視頻學(xué)習(xí),,完成小樣本快速泛化,。目前,GO-1大模型已成功部署到智元多款機(jī)器人本體之中,。
此外,智元機(jī)器人還聯(lián)合香港大學(xué)推出UniVLA系統(tǒng),。據(jù)介紹,,UniVLA是一個(gè)具備跨機(jī)器人本體、場(chǎng)景與任務(wù)泛化能力的通用策略學(xué)習(xí)系統(tǒng),。它通過(guò)構(gòu)建以任務(wù)為中心的隱式動(dòng)作空間,,利用語(yǔ)言描述與視頻示范進(jìn)行策略學(xué)習(xí),實(shí)現(xiàn)從“看視頻”,、“聽(tīng)指令”到“動(dòng)手操作”的通用控制,。
而作為國(guó)內(nèi)唯一一家從創(chuàng)業(yè)第一天就選擇了端到端統(tǒng)一大模型技術(shù)路線的公司,自變量機(jī)器人研發(fā)的WALL-A則是世界上最大規(guī)模的端到端統(tǒng)一具身大模型,。這一模型突破了傳統(tǒng)分層架構(gòu)的噪聲傳遞問(wèn)題,,支持從原始傳感器信號(hào)到機(jī)器人動(dòng)作的縱向統(tǒng)一和橫向任務(wù)統(tǒng)一,,跨任務(wù)泛化能力出色。
今年5月,,自變量機(jī)器人宣布完成數(shù)億元A輪融資,,由美團(tuán)戰(zhàn)投領(lǐng)投、美團(tuán)龍珠跟投,。公司表示,,本輪融資將用于持續(xù)加速全自研端到端通用具身智能大模型與機(jī)器人本體的同步迭代,以及未來(lái)多個(gè)應(yīng)用場(chǎng)景的智慧化方案合作和落地,。成立起不到一年半時(shí)間內(nèi),,自變量機(jī)器人已完成7輪融資,累計(jì)融資金額超10億元,。據(jù)投資人介紹,,公司所堅(jiān)持的“大小腦統(tǒng)一的端到端大模型”路線,正是多家投資機(jī)構(gòu)青睞自變量機(jī)器人的核心原因,。
校對(duì):廖勝超