ITBear旗下自媒體矩陣:

智源人工智能研究院發(fā)布SegGPT:一鍵分割圖像與視頻的利器

   時(shí)間:2023-05-31 15:36:57 來(lái)源:ITBEAR編輯:茹茹 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR科技資訊】5月31日消息,北京智源人工智能研究院在今天的中關(guān)村論壇人工智能大模型發(fā)展論壇上推出了一款名為SegGPT(Segment Everything In Context)的通用分割模型。

SegGPT是智源人工智能研究院基于其通用視覺(jué)模型Painter開(kāi)發(fā)的一款衍生模型。據(jù)稱(chēng),這款模型具備出色的上下文推理能力,訓(xùn)練完成后只需提供示例即可完成各種分割任務(wù),涵蓋圖像和視頻中的實(shí)例、類(lèi)別、零部件、輪廓、文本、人臉和醫(yī)學(xué)圖像等。使用視覺(jué)提示詞(prompt)即可輕松實(shí)現(xiàn)分割任務(wù)。

與此同時(shí),SegGPT還擁有支持任意數(shù)量視覺(jué)提示的推理能力。它能夠通過(guò)使用第一幀圖像和相應(yīng)的物體掩碼作為上下文示例,自動(dòng)進(jìn)行視頻分割,并且可以根據(jù)掩碼的顏色為物體分配獨(dú)特的ID,實(shí)現(xiàn)自動(dòng)追蹤。

據(jù)ITBEAR科技資訊了解,在此之前,meta公司也發(fā)布了基于人工智能的Segment Anything Model(SAM)模型,該模型能夠識(shí)別和分離圖像和視頻中的特定對(duì)象。此外,威斯康辛麥迪遜大學(xué)、微軟、香港科技大學(xué)等機(jī)構(gòu)的研究人員也推出了名為SEEM的模型,通過(guò)不同的視覺(jué)提示和語(yǔ)言提示,實(shí)現(xiàn)一鍵分割圖像和視頻的功能。

SegGPT的推出將為圖像和視頻分割任務(wù)提供更加便捷和高效的解決方案,為人們?cè)诟鞣N領(lǐng)域的應(yīng)用場(chǎng)景中提供更多可能性。相信隨著這些通用分割模型的不斷發(fā)展和創(chuàng)新,人們將能夠更好地利用人工智能技術(shù),實(shí)現(xiàn)更精確和高質(zhì)量的圖像和視頻分割效果。

標(biāo)簽: 北京智源
舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version