在科技日新月異的今天,人工智能領域再次迎來了重大突破。曾幾何時,OpenAI宣布將推出文生視頻大模型Sora,這一消息猶如一顆石子投入平靜的湖面,激起了全球網(wǎng)友的廣泛討論和期待。然而,時間悄然流逝,Sora似乎仍停留在概念階段,未見真容。反倒是亞馬遜云科技捷足先登,發(fā)布了名為Nova Reel的文生視頻大模型,谷歌也不甘落后,向企業(yè)用戶開放了AI視頻模型Veo。
與此同時,國內(nèi)互聯(lián)網(wǎng)巨頭們也在緊鑼密鼓地布局AI生成視頻領域??焓制煜碌腁I團隊率先打造出視頻生成大模型可靈,清華大學與北京數(shù)生科技攜手推出了Vidu,隨后騰訊公司的AI團隊也加入了這場競賽,推出了混元文生視頻大模型,并在其元寶App中上線供用戶體驗。
騰訊,作為國內(nèi)首屈一指的互聯(lián)網(wǎng)公司,在游戲、即時通訊、移動支付等領域擁有舉足輕重的地位。然而,過去騰訊的技術研發(fā)能力時常受到外界的質(zhì)疑。此番,騰訊與亞馬遜云科技、谷歌等國際巨頭同期推出視頻生成大模型,無疑是對其研發(fā)實力的一次有力證明。
然而,技術的優(yōu)劣終究要靠實踐來檢驗。騰訊混元視頻模型的實際表現(xiàn)如何呢?據(jù)用戶反饋,混元大模型擁有130億的參數(shù)量,是目前參數(shù)量最大的開源視頻生成類大模型。在公測期間,用戶每天可以獲得多次視頻生成機會,且生成的視頻長度為5秒。從功能上來看,混元大模型提供了豐富的視頻類型設置,如比例、風格、景別等,操作簡便易用。
然而,在實際使用過程中,用戶發(fā)現(xiàn)混元大模型生成的視頻雖然畫面逼真,但往往與用戶的預期存在偏差。例如,在描述“夕陽西下,少女坐在靠窗的書桌前”的場景時,生成的視頻中白人女孩的形象讓用戶感到“出戲”,且書桌、窗戶等細節(jié)并未得到很好的呈現(xiàn)。而在描述天氣變化的場景中,視頻中的天氣變化并未得到體現(xiàn),部分人物動作也顯得虛浮不自然。
為了驗證混元大模型的一致性問題,用戶用相同的描述語和鏡頭設置再次生成了視頻。雖然兩次生成的視頻在細節(jié)上有所差異,但整體效果仍然未能完全滿足用戶的期待。相比之下,Vidu和可靈兩款大模型在相同描述語下的表現(xiàn)則更為出色,它們能夠更準確地捕捉并呈現(xiàn)用戶描述中的細節(jié)和場景變化。
盡管如此,騰訊混元大模型作為新晉的視頻生成大模型,其表現(xiàn)仍然值得肯定。它已經(jīng)從0到1邁出了重要的一步,雖然目前還存在一些不足和需要改進的地方,但相信在騰訊技術團隊和資金的支持下,混元大模型有望在未來實現(xiàn)更快的成長和進步。
隨著全球互聯(lián)網(wǎng)巨頭們紛紛加入AI生成視頻的競賽,2025年有望成為視頻生成大模型爆發(fā)的一年。屆時,AI生成視頻的長度將從數(shù)秒提升至分鐘級,為全球文娛產(chǎn)業(yè)帶來前所未有的變革。在這場激烈的競爭中,國內(nèi)企業(yè)如騰訊、快手等已經(jīng)及時入場并把握住了新時代的機遇。未來,它們能否在全球視頻生成大模型行業(yè)中脫穎而出,讓我們拭目以待。