21世紀經(jīng)濟報道記者孔海麗 北京報道
2025年智源大會上,人形機器人不再是吉祥物,被“圍堵”的人從楊植麟變成了王興興。
這一年,AI進展迅猛,迭代周期甚至少于3個月,且不再局限于大語言模型,而是轉(zhuǎn)化為人形機器人訓(xùn)練、落地的強輔助。
“人工智能正在加速從數(shù)字世界走向物理世界?!敝窃囱芯吭涸洪L王仲遠在接受包括21世紀經(jīng)濟報道在內(nèi)的記者采訪時直言:“人工智能應(yīng)該為世界做一些實實在在的事情,幫助人類擺脫繁瑣的、重復(fù)的以及簡單的勞動?!?/p>
AI技術(shù)路線轉(zhuǎn)向世界模型
“大模型技術(shù)還遠沒有到發(fā)展的盡頭,過往所說的‘百模大戰(zhàn)’更多是大語言模型的競爭,而大語言模型受限于互聯(lián)網(wǎng)數(shù)據(jù)的使用,基礎(chǔ)模型性能雖然還在提升,但是提升速度不如以前?!痹谕踔龠h看來,大語言模型性能提升瓶頸的解法主要包括三個方面,一是強化學(xué)習(xí)優(yōu)化推理能力,二是合成高質(zhì)量數(shù)據(jù)替代人類標注,三是激活海量未充分利用的多模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)的規(guī)模可達文本的“百倍乃至萬倍”。
在智源研究院的判斷中,大模型的技術(shù)路線會從大語言模型往多模態(tài)尤其是原生多模態(tài)世界模型的方向發(fā)展。原生多模態(tài)世界模型本質(zhì)上是為了讓人工智能感知和理解物理世界,進而推進和物理世界的交互。進入物理世界之后,在宏觀層面,大模型與硬件結(jié)合,通過具身智能的發(fā)展解決實際生產(chǎn)生活問題。
“所有這一切構(gòu)成的世界模型,是實現(xiàn)物理AGI的重要發(fā)展路徑?!蓖踔龠h表示,智源研究院的工作布局都是圍繞這一技術(shù)發(fā)展趨勢進行的。
在2025北京智源大會上,繼“悟道”系列大模型之后,智源研究院推出了“悟界”系列大模型,包括原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。
到底該如何定義“世界模型”內(nèi)核,王仲遠以咖啡杯舉例:“現(xiàn)有模型能描述‘白色帶文字的杯子在桌上’,但無法判斷‘杯沿懸空可能墜落’——這需要時空預(yù)測能力?!彼麖娬{(diào)Emu3的核心突破正在于此:建立對物理因果關(guān)系的理解,而不僅是多模態(tài)信息拼接。
爭議中的具身智能落地路徑
當被問及具身智能的技術(shù)路線之爭,王仲遠展現(xiàn)出務(wù)實的態(tài)度。
??關(guān)于人形是不是具身智能的最優(yōu)解,王仲遠肯定了人形機器人的長期價值:“社會基礎(chǔ)設(shè)施為人類設(shè)計,雙足構(gòu)型更易融入,且海量人類行為數(shù)據(jù)利于模型訓(xùn)練?!?/p>
但短期內(nèi)四足、輪式等形態(tài)將共存,“??人形機器人的成熟周期更慢??,今年剛學(xué)會跑,穩(wěn)定性仍需突破?!彼f道。
??數(shù)據(jù)悖論如何解??? 面對“硬件能力不足限制數(shù)據(jù)采集,數(shù)據(jù)稀缺又制約模型進化”的循環(huán)困局,王仲遠認為,可以通過互聯(lián)網(wǎng)視頻數(shù)據(jù)訓(xùn)練基礎(chǔ)能力,再以少量真實數(shù)據(jù)強化學(xué)習(xí)微調(diào)。“就像孩子看視頻學(xué)會串藍莓,再動手實踐優(yōu)化動作?!?/p>
??工廠場景為何優(yōu)先??? “封閉環(huán)境可規(guī)避安全風(fēng)險,且重復(fù)枯燥任務(wù)存在剛需?!彼e例物流分揀、激光刻印等場景,“這些人類不愿做的工作,正是具身智能首個突破口”。
對于業(yè)內(nèi)熱炒的“大小腦融合”概念,王仲遠表示,智源不否認大小腦融合的可能趨勢,未來5-10年,大小腦融合的模型可能會成熟,但不是今天。
他直言,當前具身智能數(shù)據(jù)量不足以支持大小腦融合的模型訓(xùn)練。
目前,具身智能的VLA模型泛化性不夠,也許能把咖啡端得很好,但并不能很好地解決其他泛化任務(wù)。王仲遠認為,具身智能或者機器人2.0時代,最重要的是能突破專有任務(wù),達到一定的泛化性,再到未來具備更通用、跨領(lǐng)域的泛化性,這需要一定的發(fā)展過程。
他判斷,2006-2022年的深度學(xué)習(xí)或者AI 1.0時代,人工智能的發(fā)展路徑是首先在某項能力上超越人類,然后進入到生產(chǎn)生活應(yīng)用,積累了越來越多的數(shù)據(jù),再隨著算力、算法、數(shù)據(jù)達到一定程度,推動大模型的產(chǎn)生,隨后,發(fā)現(xiàn)其具備了通用人工智能和跨領(lǐng)域的可能性?!癡LA以及真正意義上端到端的具身大模型,需要時間沉淀?!?/p>
AGI剛過起跑線
MCP、Agent成為人工智能領(lǐng)域最新話題,這是否意味著AI有了實質(zhì)性突破,以及AGI到底走到了哪一步?
王仲遠認為,大模型發(fā)展到一定程度,達到可用狀態(tài)之后,Agent是產(chǎn)業(yè)界可以開始發(fā)力的領(lǐng)域。
“基礎(chǔ)大模型達到可用狀態(tài)時,像水、電、操作系統(tǒng)一樣,意味著可以基于這個操作系統(tǒng)開發(fā)很多APP?,F(xiàn)在的Agent相當于移動互聯(lián)網(wǎng)的APP,目前手機上很多APP也是工作流,但是越來越強時就能擴展能力?!彼赋?,現(xiàn)在大模型的思考能力和智能化程度已經(jīng)實現(xiàn)使得部分Agent做得很好,這是產(chǎn)業(yè)界特別擅長和優(yōu)勢所在,這是產(chǎn)業(yè)發(fā)展的趨勢。
王仲遠表示,此前“百模大戰(zhàn)”討論的是基礎(chǔ)大模型的競爭,但是基礎(chǔ)大模型一定會收斂,現(xiàn)在可以看到行業(yè)內(nèi)還剩下少數(shù)幾個玩家在堅持基礎(chǔ)大模型,這在某種程度上不會造成資源浪費。
將來有沒有可能出現(xiàn)新的“千模大戰(zhàn)”或者“萬模大戰(zhàn)”?王仲遠并不排除這種可能性。他說,因為基礎(chǔ)大模型進入產(chǎn)業(yè),需要產(chǎn)業(yè)相關(guān)的數(shù)據(jù)衍生出垂類模型,但垂類模型并不是指垂類領(lǐng)域訓(xùn)練,而是基于好的基座模型+垂類數(shù)據(jù),訓(xùn)練出好的產(chǎn)業(yè)模型。
“具身大模型的發(fā)展仍處于非常早期的階段,類似于GPT-3前的探索期。”王仲遠分析指出,當前具身智能也面臨與早期AI大模型類似的挑戰(zhàn)。
比如,技術(shù)路線尚未形成共識:學(xué)界與產(chǎn)業(yè)界對核心技術(shù)路徑存在分歧,仿真數(shù)據(jù)、強化學(xué)習(xí)、大小腦融合架構(gòu)等方向仍在探索中,尚未形成統(tǒng)一方法論;又如產(chǎn)業(yè)落地尚需突破:盡管智源推出具身智能跨本體大小腦協(xié)作框架等成果,但離大規(guī)模商用仍有較長距離,需要解決“感知-決策-行動”協(xié)同、多模態(tài)數(shù)據(jù)融合等基礎(chǔ)問題。
或許,當機器人能真正理解“咖啡杯放桌沿會摔碎”時,才是物理AGI的里程碑。