ITBear旗下自媒體矩陣:

“紫東.太初” 全模態(tài)大模型正式發(fā)布 持續(xù)探索可自主進(jìn)化的通用人工智能

   時間:2023-06-16 18:52:44 來源:互聯(lián)網(wǎng)編輯:汪淼 發(fā)表評論無障礙通道

6月16日,在人工智能框架生態(tài)峰會2023上,中國科學(xué)院自動化研究所所長徐波正式發(fā)布“紫東.太初”全模態(tài)大模型。


“紫東.太初”全模態(tài)大模型是在千億參數(shù)多模態(tài)大模型“紫東.太初”1.0基礎(chǔ)上升級打造的2.0版本,在語音、圖像和文本三模態(tài)的基礎(chǔ)上,加入視頻、信號、3D點云等模態(tài)數(shù)據(jù),研究突破了認(rèn)知增強(qiáng)的多模態(tài)關(guān)聯(lián)等關(guān)鍵技術(shù),具備全模態(tài)理解能力、生成能力和關(guān)聯(lián)能力,面向數(shù)字經(jīng)濟(jì)時代加速通用人工智能的實現(xiàn)。


會上,徐波首次對外實時展示了大模型在音樂理解與生成、三維場景導(dǎo)航、信號理解、多模態(tài)對話等方面的全新功能,并邀請現(xiàn)場觀眾與大模型即時互動?!白蠔|.太初”全模態(tài)認(rèn)知大模型不僅可以透過《月光曲》暢談貝多芬的故事,也可以在三維場景里實現(xiàn)精準(zhǔn)定位,還能夠通過圖像與聲音的結(jié)合完成場景分析,在現(xiàn)場獲得了熱烈反響。


從多模態(tài)到全模態(tài)的持續(xù)探索


人類在認(rèn)知世界時,往往同時涉及語音、圖像、文字等信息。機(jī)器需要實現(xiàn)更高水平的智能,就需要像人一樣,發(fā)展貫通圖、文、音等更多模態(tài)的大模型。自2019年起,中國科學(xué)院自動化研究所(以下簡稱“自動化所”)即堅持以“圖-音-文”多模態(tài)技術(shù)為核心,確立多模態(tài)大模型布局,整合所內(nèi)圖像、文本、語音等研究方向的優(yōu)勢資源開展集團(tuán)式攻關(guān),于2021年9月成功打造“紫東太初”1.0多模態(tài)大模型。“紫東.太初”1.0助推人工智能從“一專一能”邁向“多專多能”,向發(fā)展通用人工智能邁出了堅實的第一步。


以此為基礎(chǔ),“紫東.太初”大模型的多模態(tài)探索仍在持續(xù)深入。邁入數(shù)字經(jīng)濟(jì)時代,數(shù)據(jù)的范疇不斷拓寬,不僅包含人類自身產(chǎn)生的語音、圖像、文字等數(shù)據(jù),還有機(jī)器產(chǎn)生的大量結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)。針對新需求與新趨勢,“紫東.太初”2.0在語音、圖像和文本之外,加入了視頻、信號、3D點云等更多模態(tài),從技術(shù)架構(gòu)上實現(xiàn)了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全模態(tài)開放式接入;突破了能對信息進(jìn)行充分理解和靈活生成的多模態(tài)分組認(rèn)知編解碼技術(shù),能融合多個任務(wù)的認(rèn)知增強(qiáng)多模態(tài)關(guān)聯(lián)技術(shù)等,大模型多模態(tài)認(rèn)知能力大幅提升。


“紫東.太初”2.0可以理解三維場景、信號等數(shù)字物聯(lián)時代的重要信息,完成了音樂、圖片和視頻等數(shù)據(jù)之間的跨模態(tài)對齊,能夠處理音樂視頻分析、三維導(dǎo)航等多模態(tài)關(guān)聯(lián)應(yīng)用需求,并可實現(xiàn)音樂、視頻等多模態(tài)內(nèi)容理解和生成。從1.0到2.0,“紫東.太初”大模型打通了感知、認(rèn)知乃至決策的交互屏障,使人工智能進(jìn)一步感知世界、認(rèn)知世界,從而延伸出更加強(qiáng)大的通用能力。


打造全棧國產(chǎn)化通用人工智能底座


“紫東.太初”2.0以自動化所自研算法為核心,以昇騰AI硬件及昇思MindSpore AI框架為基礎(chǔ),依托武漢人工智能計算中心算力支持,著力打造全棧國產(chǎn)化通用人工智能底座。長期以來,強(qiáng)大的算力支撐是約束我國人工智能發(fā)展的瓶頸之一,以“紫東.太初”大模型為領(lǐng)頭雁開展的創(chuàng)新實踐將有力推動國產(chǎn)基礎(chǔ)軟硬件與大模型技術(shù)的適配,協(xié)同構(gòu)建我國通用人工智能自主可控發(fā)展生態(tài)。


全模態(tài)賦能,產(chǎn)業(yè)應(yīng)用前景廣闊


目前,“紫東.太初”大模型已展現(xiàn)出廣闊的產(chǎn)業(yè)應(yīng)用前景,在神經(jīng)外科手術(shù)導(dǎo)航、短視頻內(nèi)容審核、法律咨詢、醫(yī)療多模態(tài)鑒別診斷、交通違規(guī)圖像研讀等領(lǐng)域開始了一系列引領(lǐng)性、示范性應(yīng)用。


在醫(yī)療場景,“紫東.太初”大模型部署于神經(jīng)外科機(jī)器人MicroNeuro,可實現(xiàn)在術(shù)中實時融合視覺、觸覺等多模態(tài)信息,協(xié)助醫(yī)生對手術(shù)場景進(jìn)行實時推理判斷。同時與北京協(xié)和醫(yī)院合作,利用“紫東.太初”具備的較強(qiáng)邏輯推理能力,嘗試在人類罕見病診療這個挑戰(zhàn)性醫(yī)學(xué)領(lǐng)域有所突破。


徐波表示,自動化所以“紫東.太初”大模型為基礎(chǔ),持續(xù)探索與類腦智能、博弈智能等技術(shù)路徑的相互融合,最終實現(xiàn)可自主進(jìn)化的通用人工智能。并將探索在更多領(lǐng)域發(fā)揮賦能價值,為促進(jìn)我國數(shù)字經(jīng)濟(jì)快速發(fā)展貢獻(xiàn)力量。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version