123,123,123

宇樹開源 UnifoLM-VLA-0 大模型，助力通用人形機(jī)器人操作

2026-01-30 09:32 IT之家

導(dǎo)讀：宇樹宣布開源 UnifoLM-VLA-0 大模型。

　　1 月 29 日消息，宇樹宣布開源 UnifoLM-VLA-0 大模型。

　　據(jù)介紹，該模型是 UnifoLM 系列下面向通用人形機(jī)器人操作的視覺-語言-動作（VLA）大模型，旨在突破傳統(tǒng) VLM 在物理交互中的局限，通過在機(jī)器人操作數(shù)據(jù)上的繼續(xù)預(yù)訓(xùn)練，實現(xiàn)了從通用“圖文理解”向具備物理常識的“具身大腦”的進(jìn)化。

　　針對操作類任務(wù)中對指令理解與空間感知的高要求，模型通過繼續(xù)預(yù)訓(xùn)練深度融合了文本指令與 2D/3D 空間細(xì)節(jié)，增強(qiáng)了模型的空間感知能力。

　　構(gòu)建了全鏈路動力學(xué)預(yù)測數(shù)據(jù)，模型具備更好的任務(wù)泛化性。在真機(jī)驗證中，僅需單一策略即可高質(zhì)量完成 12 類復(fù)雜的操作任務(wù)。

　　基于 Qwen2.5-VL-7B 開源模型，宇樹構(gòu)建了覆蓋機(jī)器人與通用場景的多任務(wù)數(shù)據(jù)集，并開展持續(xù)預(yù)訓(xùn)練。該數(shù)據(jù)集涵蓋 2D 檢測與分割、任務(wù)層級分解、3D 目標(biāo)檢測、空間位置推理及軌跡預(yù)測等多維數(shù)據(jù)，有效提升了模型對幾何空間與語義邏輯的對齊能力。

　　針對操作類任務(wù)，宇樹對開源數(shù)據(jù)集進(jìn)行了系統(tǒng)化清洗，最終僅利用約 340 小時的真機(jī)數(shù)據(jù)，進(jìn)行離散動作的預(yù)測訓(xùn)練。在此基礎(chǔ)上，模型集成了動作分塊預(yù)測，以及前向與逆向動力學(xué)約束，實現(xiàn)對動作序列的統(tǒng)一建模，從而使 VLM 具備對機(jī)器人與物體物理交互規(guī)律的深度理解能力，并支持長時序動作規(guī)劃與決策。

　　基于上述構(gòu)建的數(shù)據(jù)集開展持續(xù)預(yù)訓(xùn)練后，宇樹獲得了 UnifoLM-VLM-0。該模型在多類任務(wù)場景下展現(xiàn)出顯著增強(qiáng)的空間推理能力與可靠的多模態(tài)感知性能。

　　宇樹在三個空間理解基準(zhǔn)上對模型進(jìn)行了評估，結(jié)果顯示：模型在空間感知與理解能力上較 Qwen2.5-VL-7B 有顯著提升，并且在 "no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。

　　宇樹在 UnifoLM-VLM-0 模型的基礎(chǔ)上集成了動作預(yù)測頭 (ActionHead)，從而構(gòu)建出 Uni-foLM-VLA-0。經(jīng)由仿真環(huán)境與真機(jī)實驗的多任務(wù)訓(xùn)練驗證，結(jié)果顯示該模型具備單模型處理多任務(wù)的通用能力，在 LIBERO 仿真基準(zhǔn)測試中，宇樹的多任務(wù)模型取得了接近最優(yōu)的性能。

　　在宇樹 G1 人形機(jī)器人平臺上，宇樹構(gòu)建了覆蓋 12 類復(fù)雜操作任務(wù)的高質(zhì)量真機(jī)數(shù)據(jù)集，并基于此對 UnifoLM-VLA-0 進(jìn)行單一策略網(wǎng)絡(luò)的統(tǒng)一端到端訓(xùn)練。真機(jī)實驗結(jié)果表明，該模型能夠在同一策略 checkpoint 下，穩(wěn)定完成全部 12 項任務(wù)，在外部擾動條件下仍保持良好的執(zhí)行魯棒性與抗干擾能力。

宇樹開源 UnifoLM-VLA-0 大模型，助力通用人形機(jī)器人操作

相關(guān)閱讀

宇樹開源 UnifoLM-VLA-0 大模型，助力通用人形機(jī)器人操作