近日,無問芯穹公司震撼發(fā)布了一項(xiàng)重大開源舉措,將其端側(cè)解決方案中的兩大核心模型——全模態(tài)理解小模型Megrez-3B-Omni及其純語言版本Megrez-3B-Instruct,向公眾開放。
Megrez-3B-Omni被設(shè)計(jì)為專為終端而生的全模態(tài)理解模型,它集圖片、音頻、文本三種模態(tài)數(shù)據(jù)的處理能力于一身,展現(xiàn)了強(qiáng)大的跨模態(tài)融合能力。在圖像理解領(lǐng)域,Megrez-3B-Omni在OpenCompass、MME、MMMU、OCRBench等多個(gè)主流測試集上脫穎而出,其精度令人矚目。
在文本理解方面,Megrez-3B-Omni同樣表現(xiàn)出色,它在C-eval、MMLU / MMLU Pro、AlignBench等多個(gè)權(quán)威測試集上取得了端上模型的最優(yōu)精度,彰顯了其在自然語言處理領(lǐng)域的卓越實(shí)力。
更令人贊嘆的是,Megrez-3B-Omni在語音理解領(lǐng)域也展現(xiàn)出了強(qiáng)大的實(shí)力。它支持中文和英文的語音輸入,能夠處理復(fù)雜的多輪對(duì)話場景,還能對(duì)輸入的圖片或文字進(jìn)行語音提問,實(shí)現(xiàn)了不同模態(tài)間的自由切換,為用戶帶來了前所未有的交互體驗(yàn)。
除了全模態(tài)理解小模型Megrez-3B-Omni外,無問芯穹還開源了其純語言版本Megrez-3B-Instruct。據(jù)官方宣稱,與上一代及其他端側(cè)大語言模型相比,單模態(tài)版本的Megrez-3B-Instruct在推理速度上取得了顯著提升,最大推理速度可以領(lǐng)先同精度模型300%,為用戶提供了更加高效、快速的語言處理服務(wù)。
對(duì)于此次開源舉措,無問芯穹表示,他們希望通過開放這兩個(gè)核心模型,推動(dòng)人工智能領(lǐng)域的技術(shù)創(chuàng)新和應(yīng)用發(fā)展,為更多開發(fā)者提供強(qiáng)有力的技術(shù)支持和合作機(jī)會(huì)。同時(shí),他們也歡迎廣大開發(fā)者積極參與到模型的優(yōu)化和應(yīng)用中來,共同推動(dòng)人工智能技術(shù)的不斷進(jìn)步。