ITBear旗下自媒體矩陣:

豆包大模型VideoWorld開(kāi)源:視頻生成新突破,無(wú)需語(yǔ)言模型認(rèn)知世界

   時(shí)間:2025-02-10 18:24:12 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

近日,豆包大模型團(tuán)隊(duì)攜手北京交通大學(xué)與中國(guó)科學(xué)技術(shù)大學(xué),共同研發(fā)的視頻生成實(shí)驗(yàn)?zāi)P汀癡ideoWorld”正式宣布開(kāi)源。這一創(chuàng)新成果在業(yè)界樹(shù)立了新的里程碑,它首次實(shí)現(xiàn)了無(wú)需語(yǔ)言模型輔助,即可實(shí)現(xiàn)對(duì)世界的認(rèn)知。

傳統(tǒng)的多模態(tài)模型,如Sora、DALL-E和Midjourney等,大多依賴于語(yǔ)言或標(biāo)簽數(shù)據(jù)來(lái)獲取知識(shí)。然而,語(yǔ)言作為一種表達(dá)工具,其局限性在于無(wú)法全面捕捉真實(shí)世界中的所有復(fù)雜信息。例如,折紙藝術(shù)或打領(lǐng)結(jié)等細(xì)致入微的技巧,往往難以通過(guò)語(yǔ)言進(jìn)行精確描述。而VideoWorld則打破了這一限制,它摒棄了語(yǔ)言模型,通過(guò)純視覺(jué)信號(hào)進(jìn)行統(tǒng)一的理解、執(zhí)行和推理。

VideoWorld的核心優(yōu)勢(shì)在于其獨(dú)特的潛在動(dòng)態(tài)模型。這一模型能夠高效地壓縮視頻幀間的變化信息,從而顯著提升知識(shí)學(xué)習(xí)的效率和效果。這一突破性的技術(shù)使得VideoWorld在無(wú)需依賴強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制的情況下,依然能夠達(dá)到專業(yè)級(jí)的圍棋水平——在5段9x9圍棋比賽中表現(xiàn)出色。它還能在多種復(fù)雜環(huán)境中執(zhí)行機(jī)器人任務(wù),展現(xiàn)出強(qiáng)大的應(yīng)用潛力。

這一成果的發(fā)布,標(biāo)志著視頻生成技術(shù)邁向了一個(gè)新的發(fā)展階段。VideoWorld不僅為學(xué)術(shù)界提供了新的研究方向和思路,同時(shí)也為工業(yè)界帶來(lái)了廣闊的應(yīng)用前景。隨著技術(shù)的不斷成熟和完善,相信VideoWorld將在更多領(lǐng)域發(fā)揮重要作用,推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version