ITBear旗下自媒體矩陣:

圖森未來發(fā)布Ruyi視頻大模型,消費級顯卡即可運行

   時間:2024-12-17 13:11:01 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

圖森未來近期在人工智能領(lǐng)域邁出了重要一步,正式推出了名為“Ruyi”的圖生視頻大模型,并慷慨地將Ruyi-Mini-7B版本向公眾開源,用戶現(xiàn)可通過huggingface平臺輕松下載并使用這一創(chuàng)新工具。

Ruyi是一款基于DiT架構(gòu)的視頻生成模型,其設(shè)計理念獨特,由兩大核心模塊構(gòu)成:一是Casual VAE模塊,負(fù)責(zé)高效處理視頻數(shù)據(jù)的壓縮與解壓;二是Diffusion Transformer模塊,專注于生成經(jīng)過壓縮的視頻內(nèi)容。這款模型擁有約71億個參數(shù),經(jīng)過大量訓(xùn)練,涉及約2億個視頻片段,旨在為用戶提供前所未有的視頻生成體驗。

圖森未來在設(shè)計Ruyi時,充分考慮了用戶的實際需求,特別優(yōu)化了模型在消費級顯卡上的運行效率,如RTX 4090等,確保用戶無需高端硬件也能輕松體驗。Ruyi還配備了詳盡的部署指南和ComfyUI工作流,即便是初次接觸的用戶也能迅速上手。

Ruyi的功能性同樣令人矚目,支持多分辨率、多時長的視頻生成,分辨率范圍從384*384到1024*1024,任意長寬比,最長可達(dá)120幀或5秒的視頻內(nèi)容。用戶還可通過控制首幀和首尾幀來定制視頻,最多可設(shè)置5個起始幀和5個結(jié)束幀,通過循環(huán)疊加,實現(xiàn)任意長度的視頻創(chuàng)作。

更Ruyi還提供了4檔運動幅度控制和5種鏡頭控制選項,包括上、下、左、右移動和靜止,使用戶能夠更精細(xì)地調(diào)控畫面變化和鏡頭切換,為視頻創(chuàng)作增添更多可能性。

然而,Ruyi目前仍存在一些不足,如手部動作可能顯得不夠自然,多人場景中的面部細(xì)節(jié)有時會出現(xiàn)失真,以及不可預(yù)測的轉(zhuǎn)場效果。圖森未來對此表示,團隊正在積極改進(jìn)這些缺點,并計劃在未來的更新中逐步修復(fù)。

圖森未來強調(diào),Ruyi的發(fā)布旨在利用大模型技術(shù)縮短動漫和游戲內(nèi)容的開發(fā)周期,降低制作成本。目前,Ruyi已經(jīng)能夠根據(jù)用戶輸入的關(guān)鍵幀,自動生成接下來的5秒內(nèi)容,或根據(jù)兩個關(guān)鍵幀生成中間的過渡畫面,極大地提升了創(chuàng)作效率。未來,圖森未來還將推出更多版本的Ruyi,以滿足不同創(chuàng)作者的多樣化需求。

對于想要探索Ruyi-Mini-7B版本的開發(fā)者,可以訪問以下開源鏈接:

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version