作者來自清華大學、北京大學、武漢大學和上海交通大學,主要作者為清華大學碩士生袁承博、武漢大學本科生周睿和北京大學博士生劉夢真,通訊作者為清華大學交叉信息研究院的高陽助理教授。近期,GoogleDeepMind發布新一代具身大模型GeminiRobotics1.5,其核心亮點之一便是被稱為MotionTransferMechanism(MT)的端到端動作遷移算法——無需重新訓練,即可把不同形態機器人的技能「搬」到自己身上。不過,官方技術報告對此僅一筆帶過,細節成謎。正當業內還在揣摩MT的「廬山真面目」時,清華、北大等高校聯合團隊率先把同類思路推到更高維度:直接把「動作遷移」做到人類VR數據上!更難得的是,他們第一時間放出完整技術報告、訓練代碼與權重,全部開源可復現。下面帶你快速拆解這項「人類→機器人」零樣本動作遷移新范式。
論文鏈接:https://arxiv.org/abs/2509.17759項目鏈接:https://motiontrans.github.io/代碼地址:https://github.com/michaelyuancb/motiontrans什么是MotionTrans框架MotionTrans:端到端、零樣本、多任務的遷移人類技能該論文提出MotionTrans——業界純端到端、人類→機器人的Zero-shotRGB-to-Action技能遷移框架,一舉打通「看人會」到「我會做」的最后一公里。
零樣本遷移:無需任何同任務機器人演示,僅靠人類佩戴VR采集的數據,機器人即可一次性學會倒水、拔插座、關電腦、收納等日常操作,實現真正的「眼會到手會」。小樣本精進:在零樣本基礎上,再用極少量(約5–20條)機器人本體數據微調,即可把13種人類技能推至高成功率。端到端且架構無關:整套算法為端到端,且與機器人模型架構完全解耦;作者已在DiffusionPolicy與VLA兩大主流范式上「即插即用」,驗證零樣本遷移的通用性與可擴展性。
MotionTrans算法是怎么實現的MotionTrans算法框架概覽圖MotionTrans算法框架是一套簡單易用,方便擴展的系統。具體來說,團隊首先自研了基于VR設備的人類數據采集系統(已開源)。該系統支持便攜式的同時采集人類第一人稱視頻、頭部運動、腕部位姿和手部動作。然后,團隊通過坐標系變換和手部重定向(Retargeting)等方法,將人類數據轉換為機器人格式。具體來說:第一人稱視頻:人類數據與機器人數據都使用第一人稱視角來作為視覺感知。相對腕部動作表征:為了進一步縮小人類動作與機器人動作之間的差距,團隊使用相對位腕部姿(RelativePose)來作為腕部動作表征。
手部重定向:團隊使用Dex-Retargeting工具將人類手部動作轉換為機器手對應的關節運動。除此之外,團隊還提出使用人類-機器人統一的動作歸一化(UnfiedActionNormalization)以及賦權重的人類-機器人聯合訓練算法(WeightedHuman-RobotCoTraining),來進一步實現人類向機器人技能遷移的效果。MotionTrans是一套通用的端到端訓練框架。因此,團隊選擇了最為主流的DiffusionPolicy和VLA模型來作為模型架構。最后,團隊采集了一個大規模人類-機器人數據數據集,包含3200+軌跡、15個機器人任務、15個(與機器人任務不同的)人類任務和超過10個真實生活場景。MotionTransDataset:高多樣性的大規模人類-機器人數據集零樣本表現:直接從人類數據學會若干技能團隊首先評估零樣本遷移:直接把「人類集合」里的任務部署到機器人,對于這些任務,全程未采集過任何一條機器人演示。結果顯式,在全部13個任務上,機器人模型的平均成功率可以達到20%,其中:Pick-and-Place系列表現最佳,成功率可達60%–80%;VLA模型在「關電腦」任務上更是拿下100%一次性通關;其它更為困難的任務,如拔插座、開盒子、避障放置等也取得可觀的成功率。除此之外,即便成功率為0的任務,MotionTrans依舊學會了正確的動作方向與趨勢。以擦桌子為例,模型雖未能把抹布推到足夠遠,但已清晰輸出“向前推”的連續動作,驗證了框架在零機器人數據條件下能夠捕獲任務核心語義。
MotionTrans支持零樣本實現端到端的人類向機器人技能遷移微調后表現:僅用少量機器人微調數據,精通13個新任務在隨后的「小樣本微調」階段,團隊只給每個「人類原生」任務補采了5條機器人軌跡——短短幾分鐘的示教,便讓模型在13個任務上的平均成功率從20%的零樣本基線躍至約50%;當把機器人軌跡增加到20條,平均成功率更是直達到80%。除此之外,實驗結果顯示,同時使用機器人數據和人類數據聯合訓練的MotionTrans方法要顯著優于對比的Baseline方法。最后,團隊還實施了大量消融試驗和探索性實驗,來驗證MotionTrans框架設計的合理性,以及揭示MotionTransfer發生的底層原理與機制。MotionTrans算法機器人數據微調效果曲線圖總結:人類數據學習的全新視角MotionTrans首次向社區證明:即便是最前沿的端到端VLA模型,也能在「零機器人演示」的嚴苛設定下,僅憑人類VR數據就解鎖全新的技能。
這一結果改變了人們對人類數據的認知——它不再只是提升魯棒性或加速收斂的「調味劑」,而是足以獨立充當「主菜」,讓機器人直接習得陌生任務。框架本身簡潔直白、模塊化設計,采、轉、訓三步即插即用,未來面對更大規模的數據集或參數量級的模型,只需橫向擴容即可適用。最后,團隊開源了所有的數據、代碼和模型,為后續的相關研究提供支持。更多細節請參閱原論文。