近日,豆包大模型團(tuán)隊(duì)攜手北京交通大學(xué)與中國(guó)科學(xué)技術(shù)大學(xué),共同研發(fā)的視頻生成實(shí)驗(yàn)?zāi)P汀癡ideoWorld”正式宣布開(kāi)源。這一創(chuàng)新成果在業(yè)界樹(shù)立了新的里程碑,它首次實(shí)現(xiàn)了無(wú)需語(yǔ)言模型輔助,即可實(shí)現(xiàn)對(duì)世界的認(rèn)知。
傳統(tǒng)的多模態(tài)模型,如Sora、DALL-E和Midjourney等,大多依賴于語(yǔ)言或標(biāo)簽數(shù)據(jù)來(lái)獲取知識(shí)。然而,語(yǔ)言作為一種表達(dá)工具,其局限性在于無(wú)法全面捕捉真實(shí)世界中的所有復(fù)雜信息。例如,折紙藝術(shù)或打領(lǐng)結(jié)等細(xì)致入微的技巧,往往難以通過(guò)語(yǔ)言進(jìn)行精確描述。而VideoWorld則打破了這一限制,它摒棄了語(yǔ)言模型,通過(guò)純視覺(jué)信號(hào)進(jìn)行統(tǒng)一的理解、執(zhí)行和推理。
VideoWorld的核心優(yōu)勢(shì)在于其獨(dú)特的潛在動(dòng)態(tài)模型。這一模型能夠高效地壓縮視頻幀間的變化信息,從而顯著提升知識(shí)學(xué)習(xí)的效率和效果。這一突破性的技術(shù)使得VideoWorld在無(wú)需依賴強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制的情況下,依然能夠達(dá)到專業(yè)級(jí)的圍棋水平——在5段9x9圍棋比賽中表現(xiàn)出色。它還能在多種復(fù)雜環(huán)境中執(zhí)行機(jī)器人任務(wù),展現(xiàn)出強(qiáng)大的應(yīng)用潛力。
這一成果的發(fā)布,標(biāo)志著視頻生成技術(shù)邁向了一個(gè)新的發(fā)展階段。VideoWorld不僅為學(xué)術(shù)界提供了新的研究方向和思路,同時(shí)也為工業(yè)界帶來(lái)了廣闊的應(yīng)用前景。隨著技術(shù)的不斷成熟和完善,相信VideoWorld將在更多領(lǐng)域發(fā)揮重要作用,推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。