導(dǎo)讀:宇樹宣布開源 UnifoLM-VLA-0 大模型。
1 月 29 日消息,宇樹宣布開源 UnifoLM-VLA-0 大模型。
據(jù)介紹,該模型是 UnifoLM 系列下面向通用人形機(jī)器人操作的視覺-語言-動作(VLA)大模型,旨在突破傳統(tǒng) VLM 在物理交互中的局限,通過在機(jī)器人操作數(shù)據(jù)上的繼續(xù)預(yù)訓(xùn)練,實現(xiàn)了從通用“圖文理解”向具備物理常識的“具身大腦”的進(jìn)化。
針對操作類任務(wù)中對指令理解與空間感知的高要求,模型通過繼續(xù)預(yù)訓(xùn)練深度融合了文本指令與 2D/3D 空間細(xì)節(jié),增強(qiáng)了模型的空間感知能力。
構(gòu)建了全鏈路動力學(xué)預(yù)測數(shù)據(jù),模型具備更好的任務(wù)泛化性。在真機(jī)驗證中,僅需單一策略即可高質(zhì)量完成 12 類復(fù)雜的操作任務(wù)。
基于 Qwen2.5-VL-7B 開源模型,宇樹構(gòu)建了覆蓋機(jī)器人與通用場景的多任務(wù)數(shù)據(jù)集,并開展持續(xù)預(yù)訓(xùn)練。該數(shù)據(jù)集涵蓋 2D 檢測與分割、任務(wù)層級分解、3D 目標(biāo)檢測、空間位置推理及軌跡預(yù)測等多維數(shù)據(jù),有效提升了模型對幾何空間與語義邏輯的對齊能力。
針對操作類任務(wù),宇樹對開源數(shù)據(jù)集進(jìn)行了系統(tǒng)化清洗,最終僅利用約 340 小時的真機(jī)數(shù)據(jù),進(jìn)行離散動作的預(yù)測訓(xùn)練。在此基礎(chǔ)上,模型集成了動作分塊預(yù)測,以及前向與逆向動力學(xué)約束,實現(xiàn)對動作序列的統(tǒng)一建模,從而使 VLM 具備對機(jī)器人與物體物理交互規(guī)律的深度理解能力,并支持長時序動作規(guī)劃與決策。
基于上述構(gòu)建的數(shù)據(jù)集開展持續(xù)預(yù)訓(xùn)練后,宇樹獲得了 UnifoLM-VLM-0。該模型在多類任務(wù)場景下展現(xiàn)出顯著增強(qiáng)的空間推理能力與可靠的多模態(tài)感知性能。
宇樹在三個空間理解基準(zhǔn)上對模型進(jìn)行了評估,結(jié)果顯示:模型在空間感知與理解能力上較 Qwen2.5-VL-7B 有顯著提升,并且在 "no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。
宇樹在 UnifoLM-VLM-0 模型的基礎(chǔ)上集成了動作預(yù)測頭 (ActionHead),從而構(gòu)建出 Uni-foLM-VLA-0。經(jīng)由仿真環(huán)境與真機(jī)實驗的多任務(wù)訓(xùn)練驗證,結(jié)果顯示該模型具備單模型處理多任務(wù)的通用能力,在 LIBERO 仿真基準(zhǔn)測試中,宇樹的多任務(wù)模型取得了接近最優(yōu)的性能。
在宇樹 G1 人形機(jī)器人平臺上,宇樹構(gòu)建了覆蓋 12 類復(fù)雜操作任務(wù)的高質(zhì)量真機(jī)數(shù)據(jù)集,并基于此對 UnifoLM-VLA-0 進(jìn)行單一策略網(wǎng)絡(luò)的統(tǒng)一端到端訓(xùn)練。真機(jī)實驗結(jié)果表明,該模型能夠在同一策略 checkpoint 下,穩(wěn)定完成全部 12 項任務(wù),在外部擾動條件下仍保持良好的執(zhí)行魯棒性與抗干擾能力。