ITBear旗下自媒體矩陣:

字節(jié)跳動(dòng)再出招,一天發(fā)布兩款視頻生成大模型!

   時(shí)間:2024-09-24 18:03:36 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評論無障礙通道

【ITBEAR】9月24日消息,字節(jié)跳動(dòng)正式宣布進(jìn)軍AI視頻生成領(lǐng)域。9月24日,其旗下火山引擎在深圳舉辦了AI創(chuàng)新巡展活動(dòng),并在此活動(dòng)中推出了兩款面向企業(yè)市場的大模型:豆包視頻生成-PixelDance和豆包視頻生成-Seaweed,同時(shí)開啟了邀測。

在活動(dòng)現(xiàn)場,豆包視頻生成的效果令人印象深刻。無論是語義理解能力,還是處理多個(gè)主體復(fù)雜交互畫面的能力,甚至是多鏡頭切換下的內(nèi)容一致性,豆包視頻生成大模型都展現(xiàn)了業(yè)界領(lǐng)先的水平。

據(jù)ITBEAR了解,火山引擎總裁譚待表示,視頻生成領(lǐng)域仍有許多技術(shù)難關(guān)需要攻克。他強(qiáng)調(diào),豆包的兩款模型將持續(xù)進(jìn)化,探索解決關(guān)鍵問題的更多可能性,以期加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地。

創(chuàng)新技術(shù)是豆包視頻生成模型的核心優(yōu)勢。與以往只能完成簡單指令的視頻生成模型不同,豆包視頻生成模型能夠?qū)崿F(xiàn)自然連貫的多拍動(dòng)作與多主體復(fù)雜交互。有創(chuàng)作者在體驗(yàn)后發(fā)現(xiàn),該模型生成的視頻不僅能遵循復(fù)雜指令,讓不同人物完成多個(gè)動(dòng)作指令的互動(dòng),還能確保人物樣貌、服裝細(xì)節(jié)甚至頭飾在不同運(yùn)鏡下的一致性,效果接近實(shí)拍。

豆包視頻生成模型基于DiT架構(gòu),通過高效的DiT融合計(jì)算單元,使視頻能在大動(dòng)態(tài)與運(yùn)鏡中自由切換,并擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力。其全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法攻克了多鏡頭切換的一致性難題,能在鏡頭切換時(shí)同時(shí)保持主體、風(fēng)格、氛圍的一致性,這是豆包視頻生成模型獨(dú)特的技術(shù)創(chuàng)新。

經(jīng)過剪映、即夢AI等業(yè)務(wù)場景的打磨和持續(xù)迭代,豆包視頻生成模型具備了專業(yè)級的光影布局和色彩調(diào)和能力,畫面視覺極具美感和真實(shí)感。其深度優(yōu)化的Transformer結(jié)構(gòu)大幅提升了視頻的泛化能力,支持3D動(dòng)畫、2D動(dòng)畫、國畫、黑白、厚涂等多種風(fēng)格,并適配電影、電視、電腦、手機(jī)等各種設(shè)備的比例。這使得豆包視頻生成模型不僅適用于電商營銷、動(dòng)畫教育、城市文旅、微劇本等企業(yè)場景,也能為專業(yè)創(chuàng)作者和藝術(shù)家們提供強(qiáng)大的創(chuàng)作輔助。

目前,新款豆包視頻生成模型正在即夢AI內(nèi)測版進(jìn)行小范圍測試,未來將逐步開放給所有用戶。剪映和即夢AI市場負(fù)責(zé)人陳欣然表示,AI能夠與創(chuàng)作者深度互動(dòng),共同創(chuàng)作,帶來許多驚喜和啟發(fā)。即夢AI希望成為用戶最親密和有智慧的創(chuàng)作伙伴。

在此次活動(dòng)中,豆包大模型不僅新增了視頻生成模型,還發(fā)布了豆包音樂模型和同聲傳譯模型,已全面覆蓋語言、語音、圖像、視頻等全模態(tài),全方位滿足不同行業(yè)和領(lǐng)域的業(yè)務(wù)場景需求。

隨著產(chǎn)品能力的日益完善,豆包大模型的使用量也在迅速增長。據(jù)火山引擎披露,截至9月,豆包語言模型的日均tokens使用量已超過1.3萬億,相比5月首次發(fā)布時(shí)增長了十倍。同時(shí),多模態(tài)數(shù)據(jù)處理量也分別達(dá)到每天5000萬張圖片和85萬小時(shí)語音。

譚待認(rèn)為,大模型的價(jià)格已不再是阻礙創(chuàng)新的門檻。隨著企業(yè)的大規(guī)模應(yīng)用,大模型支持更大的并發(fā)流量正在成為行業(yè)發(fā)展的關(guān)鍵因素。他介紹稱,業(yè)內(nèi)多家大模型目前最高僅支持300K甚至100K的TPM(每分鐘token數(shù)),難以承載企業(yè)生產(chǎn)環(huán)境的流量。而豆包大模型默認(rèn)支持800K的初始TPM,遠(yuǎn)超行業(yè)平均水平,客戶還可根據(jù)需求靈活擴(kuò)容。

“在我們的努力下,大模型的應(yīng)用成本已經(jīng)得到很好的解決。大模型的發(fā)展應(yīng)該從價(jià)格競爭轉(zhuǎn)向性能和服務(wù)的競爭,提供更出色的模型能力和服務(wù)?!弊T待強(qiáng)調(diào)。

關(guān)鍵詞:#字節(jié)跳動(dòng)# #AI視頻生成# #豆包大模型# #火山引擎# #即夢AI#

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭議稿件處理  |  English Version