【ITBEAR】智譜技術(shù)團隊今日宣布,其研發(fā)的文生圖模型CogView3及CogView3-Plus-3B已正式開源,并已在“智譜清言”App中上線。據(jù)團隊介紹,CogView3是一款基于級聯(lián)擴散技術(shù)的text2img模型,其生成過程分為三個階段:首先生成512x512像素的低分辨率圖像,隨后通過中繼擴散過程實現(xiàn)2倍超分辨率,生成1024x1024像素的圖像,最后再次迭代生成2048x2048像素的高分辨率圖像。
在實際應用中,CogView3的表現(xiàn)尤為出色。據(jù)官方數(shù)據(jù)顯示,在人工評估中,其性能比目前最先進的開源文本到圖像擴散模型SDXL高出77.0%,同時,其推理時間僅為SDXL的約十分之一。CogView3-Plus模型在CogView3的基礎上引入了最新的DiT框架,進一步提升了整體性能。該模型采用了Zero-SNR擴散噪聲調(diào)度,并引入了文本-圖像聯(lián)合注意力機制,有效降低了訓練和推理成本。
CogView3-Plus模型使用的VAE潛在維度為16,相較于常用的MMDiT結(jié)構(gòu),它在保持模型基本能力的同時,實現(xiàn)了成本的有效控制。這兩款模型的開源,無疑將為文本到圖像的生成領域帶來新的突破。
用戶可以通過以下鏈接訪問CogView3及CogView3-Plus-3B的開源倉庫:
開源倉庫地址:https://github.com/THUDM/CogView3
Plus 開源模型倉庫:https://huggingface.co/THUDM/CogView3-Plus-3B https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B