在6月12日舉行的第八屆北京智源大會(huì)上,智源研究院提出,世界模型是面向真實(shí)物理世界的下一代基座模型,以“預(yù)測下一物理狀態(tài)”為核心,代表著人工智能的下一個(gè)重要范式躍遷。
北京智源人工智能研究院院長王仲遠(yuǎn)認(rèn)為,當(dāng)下,人工智能正沿著從大語言模型向多模態(tài)大模型再向世界模型演進(jìn)的方向,加速從數(shù)字世界邁向物理世界。隨著多模態(tài)模型的研究深入,人工智能正經(jīng)歷一場重大的范式變革,正在從“預(yù)測下一個(gè)詞元”演進(jìn)到“預(yù)測下一個(gè)物理狀態(tài)”,這是世界模型的核心本質(zhì)。
王仲遠(yuǎn)還表示,世界模型不僅能感知、理解、推理真實(shí)物理世界的時(shí)間、空間、物理規(guī)律和物理常識,同時(shí)能涵蓋文本、視頻、深度、力覺、感知等全模態(tài)數(shù)據(jù),還具備主動(dòng)交互能力,能夠支撐各種物理世界的下游應(yīng)用。“隨著大語言與多模態(tài)技術(shù)日趨成熟,未來人工智能的發(fā)展重心將進(jìn)入世界模型時(shí)代。”
通過對現(xiàn)有世界模型技術(shù)的梳理,智源研究院將當(dāng)前世界模型相關(guān)的技術(shù)路線分為四大類:第一類是以語言為中心的世界模型,包括VLM(視覺語言大模型)、VLA(視覺-語言-動(dòng)作模型),模型在文本空間中預(yù)測下一個(gè)詞,學(xué)到的是語言描述的世界,并不能理解背后的物理后果;第二類是以像素為中心的世界模型,像Sora和Seedance等視頻生成類模型,在視覺空間中學(xué)習(xí)視頻或圖像,學(xué)到的是像素描述的世界;第三類是以三維結(jié)構(gòu)為中心的世界模型,不過模型重建3D空間不等于理解世界,幾何結(jié)構(gòu)也不代表物理狀態(tài);第四類是以視覺表征為中心的世界模型,預(yù)測的是視覺表征的壓縮,但視覺嵌入演化不等于物理規(guī)律演化。
智源研究院認(rèn)為,這四類模型距離真正“面向物理世界的基座模型”仍有距離,當(dāng)前行業(yè)對世界模型的探索仍處于早期階段,數(shù)據(jù)標(biāo)準(zhǔn)與評測框架尚未統(tǒng)一,依然需要開展大量的科研探索工作。
今年,智源大會(huì)也帶來了一系列創(chuàng)新成果發(fā)布。其中,悟界·Brainμ1.0是理解與生成統(tǒng)一的多模態(tài)神經(jīng)科學(xué)大模型,將Next-Token Prediction(“預(yù)測下一個(gè)詞元”)范式擴(kuò)展到神經(jīng)科學(xué)領(lǐng)域所構(gòu)建的多模態(tài)腦科學(xué)通用基座,由智源聯(lián)合清華團(tuán)隊(duì)基于悟界·Brainμ開展的研究成果也已刊發(fā)于Science期刊。悟界·Physis-v0.1是通用世界基座模型,以統(tǒng)一物理狀態(tài)學(xué)習(xí),實(shí)現(xiàn)物理正確、動(dòng)作因果可溯、長程一致、通用泛化,最終達(dá)到全垂類場景應(yīng)用。
據(jù)介紹,自2018年成立以來,智源研究院先后發(fā)布了“悟道”系列大模型和“悟界”系列大模型,構(gòu)建了自底向上的全棧大模型開源技術(shù)體系。截至目前,智源開源模型超200個(gè),全球總下載量累計(jì)超過10億次。同時(shí)也孵化了一系列在大模型領(lǐng)域和具身智能領(lǐng)域具有代表性的創(chuàng)新創(chuàng)業(yè)企業(yè)。

