當地時間1月28日,北京智源人工智慧研究院的一項突破性研究成果在國際頂級學術期刊《自然》(Nature)上線,這是我國科研機構主導的大模型成果首次在《自然》正刊發表。
2018年以來,GPT採用“預測下一個詞元(Next-token prediction,NTP)”的自回歸路線,實現了語言大模型重大突破,開啟了生成式人工智慧浪潮。而擅長同時處理文字、圖片、視頻等多種形態資訊的多模態模型主要依賴對比學習、擴散模型等專門路線。在此背景下,一個重要問題困擾行業數年:能否用一種簡單、統一的方法即自回歸路線,讓AI(人工智慧)同時學會高效地處理文字、圖片和視頻?
智源這項名為“通過預測下一個詞元進行多模態學習的多模態大模型”的成果給出了肯定的答案。該成果表明,只採用自回歸路線,就可以統一多模態學習,訓練出優秀的原生多模態大模型,這對於確立自回歸成為生成式人工智慧統一路線具有重大意義。
據了解,長期以來,AI在學習不同類型的“感官”資訊時,往往需要“分科而治”——理解文字用一套方法,生成圖片用另一套,處理視頻又需要不同的專業模型,過程複雜且協同起來較為困難。而智源研究院研發的Emu3模型,借鑒了GPT成功的關鍵思路“預測下一個詞元”,成功統一了對文本、圖像及視頻的理解與生成能力。打個比方,就如同給AI找到了一個“萬能學習法”,無論面對的是一段文字、一張照片,還是一段動態影像,AI都用同一種邏輯去分析和創造。實驗表明,這種統一方法在圖片生成、圖文理解和視頻創作等多個任務上,達到了與當前各類專用模型相當的水準,且具備更強的擴展潛力和通用性。
《自然》編輯點評這項研究時表示,基於“預測下一個詞元”,Emu3實現了大規模文本、圖像和視頻的統一學習,其在生成與感知任務上的性能可與使用專門路線相當,這一成果對構建可擴展、統一的多模態智慧系統具有重要意義。
值得一提的是,基於這一核心路徑的迭代版本Emu3.5模型,已展現出對物理世界運作規律的初步學習與模擬能力,能夠嘗試預測場景的下一步變化,為發展更通用、更接近人類認知方式的大模型與智慧體奠定了基礎。
據悉,自2020年啟動“悟道”大模型研究以來,智源研究院持續聚焦大模型的原始創新與長期技術路徑探索。2025年6月,智源發佈新一代大模型系列成果“悟界”,目標是構建人工智慧從數字世界邁向物理世界的關鍵能力,打造物理世界的人工智慧基座模型。該系列模型包括:Emu系列多模態世界模型、RoboBrain跨本體具身大腦、數字孿生心臟、Brainμ腦科學多模態基礎模型以及OpenComplex全原子生命模型等,共同構建起覆蓋宏觀具身智慧、介於宏觀和微觀尺度的生命系統到微觀構象動力學的多層次技術基座。(孫奇茹)


