在AI技術(shù)日新月異的當(dāng)下,視頻大模型領(lǐng)域迎來了前所未有的發(fā)展浪潮。繼OpenAI發(fā)布其視頻大模型Sora Turbo之后,盡管其支持的生成視頻時長僅為最初宣傳的三分之一,且仍處于小范圍測試階段,但這并未阻擋國內(nèi)AI企業(yè)在此領(lǐng)域的快速推進(jìn)。
今年2月,Sora的首次亮相標(biāo)志著視頻大模型行業(yè)的黃金發(fā)展期正式開啟。然而,令人意想不到的是,作為行業(yè)推動者的Sora,在國內(nèi)市場卻面臨了激烈的競爭,甚至顯得有些掉隊。國內(nèi)市場上,騰訊、阿里巴巴、字節(jié)跳動等互聯(lián)網(wǎng)巨頭紛紛推出了自己的AI視頻大模型,市場上一時間涌現(xiàn)出了不下二十款同類產(chǎn)品。
AI視頻大模型不僅賦予了AI更強(qiáng)大的理解和重構(gòu)真實世界的能力,也為用戶提供了無限的想象空間。與泛用場景的大語言模型不同,視頻大模型的使用場景更為專業(yè),因此現(xiàn)階段多需要付費才能隨心生成視頻。免費用戶通常只能依靠系統(tǒng)積分或每日贈送的次數(shù)生成視頻,且可能無法體驗部分高階功能。
在眾多國內(nèi)AI視頻大模型中,快手科技旗下的可靈無疑是先行者之一,其體驗在眾多模型中名列前茅。可靈支持文生視頻和圖片生成視頻兩種模式,且能夠調(diào)整創(chuàng)意想象力和創(chuàng)意相關(guān)性。用戶可以通過文字描述生成最高5秒的高品質(zhì)視頻,或通過圖片生成最高10秒的標(biāo)準(zhǔn)品質(zhì)視頻,并支持運鏡調(diào)節(jié)。一段描述寧靜海灘的視頻生成后,無論是風(fēng)吹椰子樹的細(xì)節(jié),還是貓咪舔舐毛發(fā)的動作,都表現(xiàn)得相當(dāng)出色,盡管生成的視頻場景是在白天而非夜晚。
抖音也不甘落后,推出了自己的視頻大模型即夢。即夢除了支持文生視頻和圖生視頻外,還加入了對口型功能,能夠根據(jù)文本或錄音調(diào)整視頻。即夢更新迭代速度極快,目前已有多個版本可用。通過即夢生成的視頻質(zhì)量也相當(dāng)不錯,但貓咪的動作略顯單調(diào)和僵硬,樹葉也未隨風(fēng)而動。
騰訊推出的混元視頻大模型則略顯稚嫩,生成的視頻質(zhì)量不如可靈和即夢。騰訊混元目前僅支持文生視頻,且每日免費生成次數(shù)有限。生成的視頻中,月亮顯得過于虛假,貓咪的動作也充滿了違和感。
北京數(shù)生科技與清華大學(xué)聯(lián)合研發(fā)的Vidu大模型則表現(xiàn)出了不俗的實力。Vidu支持文生視頻和圖生視頻,還能根據(jù)同一主體不同角度的圖片生成更具真實感的立體畫面。生成的視頻質(zhì)量高,運鏡自然流暢,細(xì)節(jié)豐富,唯一的漏洞在于沙灘的質(zhì)感稍顯不足。
智譜清言開發(fā)的清影大模型雖然功能豐富,但生成的視頻質(zhì)量卻令人失望。畫面中幾乎看不到貓咪的存在,更像是一張靜態(tài)圖片。與同門師兄弟Vidu相比,清影在自然語言理解能力上還有待提升。
愛詩科技的PixVerse大模型則以其唯美的畫面風(fēng)格吸引了眼球。生成的視頻中,小貓的毛發(fā)細(xì)節(jié)和水面的波紋都表現(xiàn)得十分到位,但貓咪的動作卻顯得有些僵硬。盡管如此,PixVerse的表現(xiàn)依然令人印象深刻。
從當(dāng)前的市場表現(xiàn)來看,國內(nèi)AI視頻大模型領(lǐng)域已呈現(xiàn)出群雄逐鹿的態(tài)勢。盡管各模型在細(xì)節(jié)上還存在一定的不足,但整體實力已不容小覷。未來,隨著技術(shù)的不斷進(jìn)步和市場的日益成熟,AI視頻大模型有望在更多領(lǐng)域發(fā)揮重要作用。