誕生在北京的人形機器人“天工”正從“會跑”變得“好用”,其“大腦”中快速學習技能的秘籍已經分享給了更多機器人。近日,北京人形機器人創新中心開源具身世界模型——WoW。這一模型相當於“天工”的大腦,面向行業開源後可以幫助更多具身智慧機器人快速學習掌握各項技能,助力行業打造“最好用”的機器人。
後空翻、跑酷、馬拉松……最近,人形機器人學會了不少運動本領,體現了運動能力。“讓機器人完成一個後空翻很難,但讓它‘理解’面前的水杯為什麼倒下後水會灑出來要更難。”北京人形機器人創新中心相關負責人解釋,讓機器人“理解”這些,得需要“世界模型”。
“世界模型”近來在人工智慧領域格外熱門。通俗地説,它通過大規模交互數據的學習,使機器人能夠建立對真實世界物理規律的理解與預測能力。比如,人類在抓取一個生雞蛋時會考慮使多大的力,而人形機器人就是通過“世界模型”來預測類似這種使多大力的物理規律。
“WoW”不只是讓機器人可以“看得見”,更融合了視覺、動作、物理感知與推理。它能讓機器人通過學習世界的物理規律,在真實環境中自主操作。“如果説GPT系列讓機器‘讀懂語言’,Sora系列是在‘看世界’,那麼WoW 就是讓機器人‘理解物理世界’。”上述負責人説。
對人來説,完成清洗水果、收拾桌面等任務格外簡單,但對機器人來説每一個動作都需要分別完成感知、預測、判斷、反思與行動。“WoW”模型恰恰拆分成了這些環節,能夠根據環境狀態預測未來場景、推演物理演化、還原動態因果鏈。
從展示效果來看,搭載了該模型的“天工”機器人可以輕鬆完成打開洗碗機、擰開水龍頭等各種不一樣的動作。如果沒有這個模型,那就只能由人給機器人下發單一指令,讓它單獨完成某一個動作;但有了這個模型的機器人則具備學習的能力,可以通過學習完成不一樣的動作。
對機器人來説,“泛化”是格外關鍵的指標,也就是面對不同任務、場景、形態,都能穩定發揮。“WoW”恰恰具備這個能力,不是在記憶訓練場景,而是在學習“物理規律的抽象本質”。這類“視覺+物理”的泛化能力,是通向具身智慧的關鍵指標。
該模型開源後,已經受到學術界和産業界的廣泛關注,國內外企業和高校院所的相關文章也引用了該具身世界模型技術報告。“開源後,更多企業不用自研模型,搭載‘WoW’就可以讓機器人掌握更多本領,真正惠及行業。”北京人形機器人創新中心相關負責人説。(曹政)