【ITBEAR】智譜技術(shù)團(tuán)隊(duì)近日宣布,其最新研發(fā)的文生圖模型CogView3及CogView3-Plus-3B已正式開(kāi)源,并已在“智譜清言”App上線。這一系列模型展現(xiàn)了強(qiáng)大的文本到圖像的生成能力。
CogView3模型基于級(jí)聯(lián)擴(kuò)散機(jī)制,分為三階段:首先生成512x512低分辨率圖像,然后通過(guò)中繼擴(kuò)散過(guò)程實(shí)現(xiàn)2倍超分辨率,最終生成2048x2048高分辨率圖像。
據(jù)官方介紹,CogView3在人工評(píng)估中表現(xiàn)卓越,比目前最先進(jìn)的開(kāi)源文本到圖像擴(kuò)散模型SDXL高出77.0%,且推理時(shí)間僅需SDXL的約十分之一。
而CogView3-Plus模型則在CogView3的基礎(chǔ)上,引入了最新的DiT框架,采用Zero-SNR擴(kuò)散噪聲調(diào)度,并加入文本-圖像聯(lián)合注意力機(jī)制,進(jìn)一步提升了整體性能。
CogView3及CogView3-Plus-3B的開(kāi)源倉(cāng)庫(kù)地址分別為:https://github.com/THUDM/CogView3 和 https://huggingface.co/THUDM/CogView3-Plus-3B,同時(shí)在ModelScope平臺(tái)也可獲取:https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B