
2月12日,小米雷軍通過(guò)微博泄漏,小米機(jī)器東說(shuō)念主團(tuán)隊(duì)厚愛(ài)開源Xiaomi-Robotics-0,一個(gè)47億參數(shù)的具身智能VLA模子。該模子遴薦Mixture-of-Transformers攙雜架構(gòu),在LIBERO、CALVIN和SimplerEnv三大仿真測(cè)試集的總共Benchmark中,與30個(gè)對(duì)比模子比較均獲適宜前最優(yōu)得益。
圖片起首:小米時(shí)期
Xiaomi-Robotics-0的中樞在于通過(guò)MoT架構(gòu)將視覺(jué)講話大模子與多層Diffusion Transformer解耦。VLM負(fù)責(zé)處理正常教唆與空間聯(lián)系融會(huì),澳門新浦京DiT則通過(guò)流匹配生成高頻、流通的Action Chunk。這種聯(lián)想讓模子在揮霍級(jí)顯卡上即可完成及時(shí)推理,處分了現(xiàn)存VLA模子因推理延長(zhǎng)導(dǎo)致真機(jī)“手腳斷層”的共性痛點(diǎn)。
模子架構(gòu)及實(shí)踐姿色:(a) VLM多模態(tài)與手腳攙雜預(yù)實(shí)踐;(b) DiT專項(xiàng)預(yù)實(shí)踐;(c) 打算任務(wù)后實(shí)踐;圖片起首:小米時(shí)期
實(shí)踐計(jì)謀分為兩個(gè)階段。跨模態(tài)預(yù)實(shí)踐階段引入Action Proposal機(jī)制,強(qiáng)制VLM在圖像清爽的同期揣摸多模態(tài)手腳離別,時(shí)時(shí)彩完成特征空間與手腳空間的對(duì)皆;隨后凍結(jié)VLM,專項(xiàng)實(shí)踐DiT從噪聲中收復(fù)精確手腳序列。后實(shí)踐階段的中樞是異步推理形態(tài),使模子推理與機(jī)器東說(shuō)念主運(yùn)轉(zhuǎn)脫離同步斂跡。同期,Clean Action Prefix通過(guò)引入上一時(shí)期手腳輸入來(lái)保證軌跡流通性,Λ-shape Attention Mask則強(qiáng)制模子優(yōu)先反應(yīng)現(xiàn)時(shí)視覺(jué)反饋,進(jìn)步靠近環(huán)境擾動(dòng)時(shí)的反應(yīng)敏捷性。
在真機(jī)部署測(cè)試中,搭載該模子的雙臂機(jī)器東說(shuō)念主在積木拆解、疊毛巾等萬(wàn)古序、高目田度任務(wù)中展現(xiàn)出相識(shí)的手眼配合才氣,同期保留了VLM原有的物體檢測(cè)與視覺(jué)問(wèn)答才氣。名堂代碼、模子權(quán)重與時(shí)期文檔當(dāng)今已同步上線GitHub和Hugging Face。

備案號(hào):