近日,清華背景的AI基礎(chǔ)設(shè)施創(chuàng)新企業(yè)無問芯穹宣布了一項(xiàng)重大開源舉措,正式推出了針對(duì)端側(cè)設(shè)備的全模態(tài)理解小模型Megrez-3B-Omni,并同步公開了其純語言模型版本Megrez-3B-Instruct。這一舉措標(biāo)志著無問芯穹在推動(dòng)人工智能向更廣泛的端側(cè)設(shè)備普及方面邁出了重要一步。
Megrez-3B-Omni專為端側(cè)設(shè)備設(shè)計(jì),擁有30億參數(shù),這一規(guī)模被視為手機(jī)、平板等設(shè)備的“黃金尺寸”。其結(jié)構(gòu)緊湊且規(guī)整,使得單模態(tài)版本的推理速度在同精度模型中遙遙領(lǐng)先,最大提升可達(dá)300%。更該模型不僅具備處理圖片、音頻、文本三種模態(tài)數(shù)據(jù)的能力,還在多個(gè)測(cè)評(píng)基準(zhǔn)中取得了同尺寸下的最優(yōu)性能。
Megrez-3B-Omni的多模態(tài)處理能力非常靈活,響應(yīng)迅速。例如,用戶可以先拍攝一張單據(jù)照片并發(fā)送給模型,隨后詢問“6個(gè)人AA制,每人應(yīng)付多少錢”,接著通過語音輸入要求模型編寫一段幽默文案催促大家交錢。模型能夠立即按照要求生成文案,展示了其強(qiáng)大的處理能力和便捷性。
在與同樣具備三模態(tài)處理能力的VITA(基于Mixtral 8×7B)、Baichuan-Omni-7B,以及雙模態(tài)和單一模態(tài)的多個(gè)模型相比時(shí),Megrez-3B-Omni在主流基準(zhǔn)測(cè)試集上的表現(xiàn)同樣出色,不落下風(fēng)。Megrez-3B-Instruct還提供了WebSearch功能,支持調(diào)用外部工具進(jìn)行網(wǎng)頁搜索,進(jìn)一步增強(qiáng)了其實(shí)用性。
無問芯穹由清華大學(xué)電子工程系教授汪玉發(fā)起,其技術(shù)團(tuán)隊(duì)源自清華大學(xué)電子工程系NICS-EFC實(shí)驗(yàn)室,在模型壓縮、推理加速及硬件能耗優(yōu)化等領(lǐng)域擁有深厚的學(xué)術(shù)研究和豐富的工程實(shí)踐經(jīng)驗(yàn)。公司以“釋放無穹算力,讓AGI觸手可及”為使命,致力于成為大模型時(shí)代的首選“算力運(yùn)營商”。
自成立以來,無問芯穹已吸引了包括百度、智譜AI、聯(lián)想、小米和軟通高科在內(nèi)的多家知名企業(yè)投資。據(jù)透露,該公司今年已實(shí)現(xiàn)了規(guī)?;杖?,主要來自算力銷售,并計(jì)劃明年進(jìn)一步擴(kuò)大市場(chǎng)份額。其端側(cè)大模型推理處理器LPU將以IP形式與合作伙伴聯(lián)合發(fā)布芯片,預(yù)計(jì)明年將有落地嘗試。
作為無問芯穹“端模型+端軟件+端IP”端上智能一體化解決方案的重要組成部分,Megrez-3B-Omni的推出被視為實(shí)現(xiàn)端側(cè)AGI的關(guān)鍵一環(huán)。無問芯穹表示,這將是一個(gè)能力預(yù)覽,未來將持續(xù)迭代Megrez系列,提升自動(dòng)化水平,使用戶僅需簡(jiǎn)單的語音指令即可完成端設(shè)備的設(shè)置或應(yīng)用操作。
在圖像理解方面,Megrez-3B-Omni以3B的參數(shù)規(guī)模實(shí)現(xiàn)了對(duì)34B模型性能的全面超越,成為多個(gè)主流測(cè)試集上精度最高的圖像理解模型之一。它能夠準(zhǔn)確識(shí)別模糊印刷體和復(fù)雜手寫字,展示了出色的場(chǎng)景理解和OCR能力。
在文本理解方面,Megrez-3B-Omni同樣表現(xiàn)出色,將上一代14B大模型的優(yōu)秀能力壓縮至3B規(guī)模,實(shí)現(xiàn)了更高的性能輸出和更低的計(jì)算成本。它在多個(gè)權(quán)威測(cè)試集上取得了端上模型最優(yōu)精度,為端側(cè)設(shè)備的智能化提供了全新可能。
在語音理解方面,Megrez-3B-Omni支持中文和英文的語音輸入,能夠處理復(fù)雜的多輪對(duì)話場(chǎng)景,并支持對(duì)輸入圖片或文字的語音提問,實(shí)現(xiàn)了不同模態(tài)間的自由切換。Megrez-3B-Instruct還提供了WebSearch功能,能夠智能判斷何時(shí)調(diào)用外部工具進(jìn)行網(wǎng)頁搜索,輔助回答用戶問題。
通過軟硬件聯(lián)合優(yōu)化,無問芯穹的端上智能一體化解決方案將為端側(cè)設(shè)備提供更完整、高效的智能方案,促進(jìn)大模型在端側(cè)設(shè)備上實(shí)現(xiàn)更高推理速度與更低能耗,推動(dòng)人工智能技術(shù)的普及和發(fā)展。