【ITBEAR科技資訊】4月28日消息,隨著Sora在全球掀起AI視頻生成熱潮,國(guó)內(nèi)科技界也迎來(lái)了新的突破。近日,一段由國(guó)內(nèi)AI技術(shù)生成的視頻短片受到了廣泛關(guān)注,該視頻源自生數(shù)科技與清華大學(xué)聯(lián)合發(fā)布的最新視頻大模型Vidu。
據(jù)官方介紹,Vidu模型采用了團(tuán)隊(duì)原創(chuàng)的Diffusion與Transformer融合的架構(gòu)U-ViT,能夠一鍵生成長(zhǎng)達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容。用戶(hù)只需輸入簡(jiǎn)單的指令,如“畫(huà)室里的一艘船駛向鏡頭”,Vidu便能生成效果逼真、鏡頭連貫的高清視頻。其整體質(zhì)感足以與全球領(lǐng)先的Sora模型相媲美。
除了能生成復(fù)雜且細(xì)節(jié)豐富的場(chǎng)景外,Vidu還具備虛構(gòu)場(chǎng)景及想象超現(xiàn)實(shí)主義畫(huà)面的能力,同時(shí)能更好地理解和生成熊貓、龍等富有中國(guó)文化特色的形象。這一創(chuàng)新功能的引入,使得Vidu在國(guó)內(nèi)外AI視頻生成領(lǐng)域中脫穎而出。
ITBEAR科技資訊了解到,生數(shù)科技團(tuán)隊(duì)在機(jī)器學(xué)習(xí)和多模態(tài)大模型領(lǐng)域有著深厚的積累。正是基于這些長(zhǎng)期的技術(shù)沉淀,團(tuán)隊(duì)在短短兩個(gè)月內(nèi)便突破了長(zhǎng)視頻表示與處理的多項(xiàng)關(guān)鍵技術(shù),成功研發(fā)并推出了Vidu視頻大模型。
公開(kāi)資料顯示,生數(shù)科技成立于2023年3月,其核心團(tuán)隊(duì)來(lái)自清華大學(xué)人工智能研究院,并匯聚了來(lái)自北京大學(xué)及阿里巴巴、騰訊、字節(jié)跳動(dòng)等知名科技公司的技術(shù)精英。截至2024年3月,公司員工總數(shù)已超過(guò)70人,其中研發(fā)人員占比近90%,彰顯了公司強(qiáng)大的研發(fā)實(shí)力。
生數(shù)科技自成立以來(lái),便致力于打造可控多模態(tài)通用大模型。去年3月,公司開(kāi)源了全球首個(gè)基于U-ViT框架的多模態(tài)擴(kuò)散大模型UniDiffuser,進(jìn)一步鞏固了其在行業(yè)內(nèi)的領(lǐng)先地位。同時(shí),公司在短短一年時(shí)間內(nèi)完成了三輪融資,總計(jì)數(shù)億元人民幣,估值迅速攀升,已成為目前國(guó)內(nèi)多模態(tài)大模型中估值最高的初創(chuàng)公司之一。
生數(shù)科技的快速發(fā)展和Vidu模型的成功發(fā)布,不僅展示了國(guó)內(nèi)AI技術(shù)的創(chuàng)新實(shí)力,也為全球AI視頻生成領(lǐng)域注入了新的活力。未來(lái),隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的拓展,我們有理由相信AI將在視頻創(chuàng)作領(lǐng)域發(fā)揮更加重要的作用。