ITBear旗下自媒體矩陣:

清華AI創(chuàng)企無(wú)問(wèn)芯穹開(kāi)源:端側(cè)全模態(tài)理解模型Megrez-3B-Omni震撼登場(chǎng)

   時(shí)間:2024-12-16 17:19:22 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

近日,清華背景的AI基礎(chǔ)設(shè)施創(chuàng)新企業(yè)無(wú)問(wèn)芯穹宣布了一項(xiàng)重大開(kāi)源舉措,正式推出了針對(duì)端側(cè)設(shè)備設(shè)計(jì)的全模態(tài)理解小模型Megrez-3B-Omni,以及它的純語(yǔ)言模型版本Megrez-3B-Instruct。這一舉動(dòng)標(biāo)志著無(wú)問(wèn)芯穹在推動(dòng)人工智能技術(shù)在移動(dòng)端設(shè)備上的應(yīng)用邁出了重要一步。

Megrez-3B-Omni是專為手機(jī)、平板等端側(cè)設(shè)備量身打造的,其30億參數(shù)的規(guī)模被視為端側(cè)設(shè)備的“黃金尺寸”。這一模型不僅在結(jié)構(gòu)上緊湊高效,而且在單模態(tài)版本的推理速度上,相較于同精度模型,實(shí)現(xiàn)了最高300%的性能提升。更Megrez-3B-Omni具備圖片、音頻、文本三種模態(tài)數(shù)據(jù)的處理能力,并在多個(gè)測(cè)評(píng)基準(zhǔn)中取得了同尺寸下的最優(yōu)性能。

在實(shí)際應(yīng)用中,Megrez-3B-Omni的多模態(tài)能力展現(xiàn)出了極高的靈活性和響應(yīng)速度。例如,用戶可以先拍攝一張單據(jù)照片發(fā)送給模型,詢問(wèn)“6個(gè)人AA人均多少錢(qián)”,隨后通過(guò)語(yǔ)音輸入要求它編寫(xiě)一個(gè)幽默文案催促大家交錢(qián),模型能夠立即按要求生成文案。這種無(wú)縫切換模態(tài)的能力,大大提升了用戶體驗(yàn)。

與市場(chǎng)上其他模型相比,Megrez-3B-Omni在主流基準(zhǔn)測(cè)試集上的表現(xiàn)毫不遜色。無(wú)論是與同樣三模態(tài)的VITA、Baichuan-Omni-7B,還是雙模態(tài)的MiniCPM-V 2.6、Qwen2系列模型,以及單一模態(tài)的Qwen、Baichuan等模型相比,Megrez-3B-Omni都展現(xiàn)出了強(qiáng)大的競(jìng)爭(zhēng)力。

Megrez-3B-Instruct版本還提供了WebSearch功能,支持調(diào)用外部工具進(jìn)行網(wǎng)頁(yè)搜索,進(jìn)一步增強(qiáng)了模型的信息獲取和回答問(wèn)題的能力。這一功能使得用戶能夠構(gòu)建屬于自己的AI搜索系統(tǒng),克服小模型在知識(shí)儲(chǔ)備方面的局限。

無(wú)問(wèn)芯穹由清華大學(xué)電子工程系教授汪玉發(fā)起,其技術(shù)團(tuán)隊(duì)源自清華大學(xué)電子工程系NICS-EFC實(shí)驗(yàn)室,在模型壓縮、推理加速及硬件能耗優(yōu)化等領(lǐng)域擁有深厚的學(xué)術(shù)研究和工程實(shí)踐經(jīng)驗(yàn)。公司致力于成為大模型時(shí)代的首選“算力運(yùn)營(yíng)商”,以“釋放無(wú)穹算力,讓AGI觸手可及”為使命。

自成立以來(lái),無(wú)問(wèn)芯穹已經(jīng)取得了一些規(guī)?;杖?,主要來(lái)自算力銷售。公司計(jì)劃明年進(jìn)一步擴(kuò)大市場(chǎng)份額,并推出端側(cè)大模型推理處理器LPU的IP形式,與合作伙伴共同發(fā)布芯片,進(jìn)行落地嘗試。內(nèi)部測(cè)算顯示,無(wú)問(wèn)芯穹有望在3到5年內(nèi)實(shí)現(xiàn)盈利。

在圖像理解方面,Megrez-3B-Omni以3B的參數(shù)規(guī)模,實(shí)現(xiàn)了全面超過(guò)34B模型的綜合性能表現(xiàn)。在場(chǎng)景理解、OCR等任務(wù)上,該模型能夠準(zhǔn)確洞察和分析圖像內(nèi)容,高效提取文本信息。即便是模糊截圖或復(fù)雜手寫(xiě)字照片,模型也能快速識(shí)別并提取關(guān)鍵信息。

在文本理解方面,Megrez-3B-Omni同樣表現(xiàn)出色。作為全模態(tài)理解模型,該模型沒(méi)有犧牲文本處理能力,反而以更少的資源消耗實(shí)現(xiàn)了更高的性能輸出。在C-eval、MMLU/MMLU Pro、AlignBench等多個(gè)權(quán)威測(cè)試集上,該模型取得了端上模型最優(yōu)精度。

在語(yǔ)音理解方面,Megrez-3B-Omni支持中文和英文的語(yǔ)音輸入,能夠處理復(fù)雜的多輪對(duì)話場(chǎng)景,并支持對(duì)輸入圖片或文字的語(yǔ)音提問(wèn),實(shí)現(xiàn)不同模態(tài)間的自由切換。用戶可以就任意模態(tài)內(nèi)容發(fā)出語(yǔ)音指令,模型能夠根據(jù)指令快速響應(yīng)。

Megrez-3B-Instruct的WebSearch功能使得模型能夠智能判斷何時(shí)調(diào)用外部工具進(jìn)行網(wǎng)頁(yè)搜索,輔助回答用戶問(wèn)題。這一功能不僅提升了模型的回答能力,還為用戶提供了更加便捷和個(gè)性化的AI體驗(yàn)。

無(wú)問(wèn)芯穹通過(guò)“端模型+端軟件+端IP”的端上智能一體化解決方案,為端側(cè)設(shè)備提供了更完整、對(duì)硬件利用更高效的智能方案。未來(lái),隨著技術(shù)的不斷發(fā)展和市場(chǎng)的深入拓展,無(wú)問(wèn)芯穹有望在推動(dòng)端側(cè)智能方面發(fā)揮更加重要的作用。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version