4月16日,阿里巴巴(BABA)ATH事業(yè)群正式推出開放式世界模型產(chǎn)品“HappyOyster”,主打?qū)崟r世界創(chuàng)建與交互。這款產(chǎn)品可生成動態(tài)三維環(huán)境,支持影視制作、游戲(881275)開發(fā)等場景,標志著阿里(BABA)ATH的技術(shù)布局從視頻生成延伸至交互式世界模型領域。目前產(chǎn)品已開啟內(nèi)測,用戶可通過官網(wǎng)happyoyster.cn加入候補名單。
從“生成視頻”到“實時造世界”,核心產(chǎn)品能力大幅提升
“HappyOyster”是一款可實時構(gòu)建和交互的開放式世界模型產(chǎn)品。不同于傳統(tǒng)AI視頻生成工具“寫prompt → 等渲染 → 收到成片”的一次性線性流程,HappyOyster在生成過程中可持續(xù)接收用戶指令,畫面實時響應、持續(xù)演繹,交互性顯著增強。這意味著創(chuàng)作者不必在每一輪修改中從頭開始等待渲染結(jié)果,而是可以在生成過程中隨時調(diào)整畫面元素、視角和動態(tài)效果,極大縮短了創(chuàng)意迭代周期(883436)。
該產(chǎn)品可生成動態(tài)三維環(huán)境,支持影視制作、游戲(881275)開發(fā)等場景。在影視制作領域,導演和視效團隊可通過自然語言或圖像輸入,實時構(gòu)建和調(diào)整三維場景,快速完成概念驗證和預可視化工(850102)作;在游戲(881275)開發(fā)領域,HappyOyster可幫助開發(fā)者在原型階段快速生成可交互的三維環(huán)境,大幅降低前期美術(shù)和關(guān)卡設計的成本。
HappyOyster基于原生多模態(tài)架構(gòu),其背后是支持多模態(tài)輸入與音視頻聯(lián)合生成的流式生成世界模型。所謂“原生多模態(tài)架構(gòu)”,區(qū)別于傳統(tǒng)“視覺編碼器用于理解、變分自編碼器用于生成”的組合式設計,而是從一開始就以統(tǒng)一模型同時處理文本、圖像、音頻等多種模態(tài)的輸入與輸出,避免了模塊割裂帶來的協(xié)同與效率損耗。這一技術(shù)路線的優(yōu)勢在于,模型能夠?qū)崿F(xiàn)端到端的跨模態(tài)理解與生成,保證生成內(nèi)容在時空維度上的高度一致性。
“流式生成”是該產(chǎn)品的另一核心特征——模型在生成過程中持續(xù)接收用戶指令并實時響應,而非等待完整生成后再輸出結(jié)果。這種架構(gòu)使Happy Oyster在交互性和響應速度上具備顯著優(yōu)勢,更接近“實時世界模擬器”的愿景。
阿里ATH事業(yè)群持續(xù)發(fā)力
HappyOyster隸屬于阿里巴巴(BABA)ATH(AliBABA Token Hub)事業(yè)群旗下的AI創(chuàng)新事業(yè)部,與此前引發(fā)廣泛關(guān)注的視頻生成模型HappyHorse(快樂馬)同屬一個事業(yè)部。
ATH事業(yè)群由阿里巴巴(BABA)CEO吳泳銘于2026年3月16日親自掛帥成立,以“創(chuàng)造Token、輸送Token、應用Token”為核心目標,下設通義實驗室、MaaS業(yè)務線、千問事業(yè)部、悟空事業(yè)部及AI創(chuàng)新事業(yè)部,覆蓋從基礎模型研發(fā)到個人與企業(yè)端ai應用(886108)的完整鏈條。
AI創(chuàng)新事業(yè)部此前已在視頻生成賽道取得突破——其研發(fā)的HappyHorse-1.0模型在Artificial Analysis視頻編輯方向排行榜中以1299分位列榜首,表現(xiàn)優(yōu)于Grok等國際主流模型。該模型采用150億參數(shù)、40層單流Transformer架構(gòu),實現(xiàn)了文本、圖像、音頻的統(tǒng)一模態(tài)建模,破解了AI視頻生成中時序混亂、畫質(zhì)不足、指令理解偏差三大痛點。
ATH創(chuàng)新事業(yè)部已啟動一項“AI時代的全新交互方式探索計劃”,HappyHorse是該探索方向的一部分,更多產(chǎn)品會陸續(xù)推出。Happy Oyster的發(fā)布,正是這一計劃落地的又一關(guān)鍵節(jié)點。
從HappyHorse到HappyOyster,阿里(BABA)ATH事業(yè)群正以“世界模型”為錨點,系統(tǒng)性地構(gòu)建AI時代的全新交互范式。
世界模型迎來爆發(fā)之年,應用前景廣闊
HappyOyster的發(fā)布,恰逢世界模型賽道迎來全面爆發(fā)。英偉達(NVDA)機器人主管Jim Fan近日發(fā)文稱,2026年將成為大世界模型真正為機器人以及更廣義的多模態(tài)ai(886062)奠定基礎的第一年。行業(yè)共識正從語言模型轉(zhuǎn)向能理解物理規(guī)律的多模態(tài)世界模型——從“預測下一個詞”到“預測世界下一狀態(tài)”。
在產(chǎn)業(yè)層面,各大科技公司和研究機構(gòu)密集布局。騰訊(K80700)發(fā)布并開源混元3D世界模型2.0,可直接生成可二次編輯的3D資產(chǎn)文件,導入游戲(881275)制作或具身仿真引擎實現(xiàn)真正可玩、可用;商湯(K80020)科技也發(fā)布了多模態(tài)理解生成一體化架構(gòu),劍指世界模型賽道。與此同時,資本也加速涌入,生數(shù)科技獲阿里(BABA)領投2.9億美元研發(fā)通用世界模型,智象未來完成新一輪融資打造原生全模態(tài)世界模型。
在這一競爭格局中,HappyOyster憑借原生多模態(tài)架構(gòu)和流式生成能力,展現(xiàn)出與競爭對手的差異化優(yōu)勢。相較于騰訊(K80700)混元2.0側(cè)重3D資產(chǎn)導出和游戲(881275)工作流集成,HappyOyster更強調(diào)實時交互體驗;相較于PixVerse R1的通用視頻生成定位,HappyOyster更聚焦三維環(huán)境構(gòu)建與行業(yè)場景落地。
從更宏觀的視角看,世界模型被視為通往“物理AI”的必經(jīng)之路,其應用范圍正從數(shù)字創(chuàng)作領域向自動駕駛、機器人訓練、工業(yè)仿真等物理世界場景延伸。HappyOyster的發(fā)布,既是對當下創(chuàng)作者需求的響應,也為未來更廣闊的ai應用(886108)場景奠定了技術(shù)基礎。
