ITBear旗下自媒體矩陣:

MiniMax 稀宇科技推出萬(wàn)億參數(shù)MoE模型abab 6.5 ,核心能力接近 GPT-4

   時(shí)間:2024-04-17 16:49:26 來(lái)源:ITBEAR編輯:茹茹 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR科技資訊】4月17日消息,國(guó)內(nèi)AI初創(chuàng)企業(yè)MiniMax稀宇科技今日宣布,他們已成功研發(fā)出基于MoE(Mixture of Experts)混合專家模型架構(gòu)的abab 6.5系列模型,這標(biāo)志著該公司在人工智能領(lǐng)域取得了重要突破。據(jù)悉,該系列模型的核心能力已經(jīng)開(kāi)始接近當(dāng)前領(lǐng)先的GPT-4、Claude-3和Gemini-1.5等模型。

abab 6.5系列包含兩個(gè)重要模型:abab 6.5和abab 6.5s。其中,abab 6.5模型擁有萬(wàn)億級(jí)別的參數(shù),能夠支持長(zhǎng)達(dá)200k tokens的上下文長(zhǎng)度,展現(xiàn)出強(qiáng)大的語(yǔ)言處理能力。而abab 6.5s模型則在保持與abab 6.5相同訓(xùn)練技術(shù)和數(shù)據(jù)的基礎(chǔ)上,實(shí)現(xiàn)了更高的效率。它同樣支持200k tokens的上下文長(zhǎng)度,并且能在1秒內(nèi)處理近3萬(wàn)字的文本,為實(shí)時(shí)、高效的語(yǔ)言處理提供了可能。

據(jù)ITBEAR科技資訊了解,自今年1月MiniMax發(fā)布國(guó)內(nèi)首個(gè)基于MoE架構(gòu)的abab 6模型以來(lái),該公司一直致力于通過(guò)改進(jìn)模型架構(gòu)、重構(gòu)數(shù)據(jù)pipeline、優(yōu)化訓(xùn)練算法及并行訓(xùn)練策略等手段,加速Scaling Laws的過(guò)程。這一系列努力終于取得了階段性的成果,即abab 6.5系列的誕生。

為了驗(yàn)證abab 6.5系列模型的性能,MiniMax官方進(jìn)行了業(yè)界常用的“大海撈針”測(cè)試。在該測(cè)試中,官方在一段很長(zhǎng)的文本中插入一個(gè)與該文本無(wú)關(guān)的句子,并嘗試通過(guò)自然語(yǔ)言向模型提問(wèn),以檢驗(yàn)?zāi)P褪欠衲軌驕?zhǔn)確找出這個(gè)“針”。經(jīng)過(guò)891次測(cè)試,abab 6.5均能夠準(zhǔn)確地回答出這個(gè)“針”,展現(xiàn)出極高的精確度和可靠性。

隨著abab 6.5與abab 6.5s模型的推出,MiniMax稀宇科技將進(jìn)一步鞏固其在人工智能領(lǐng)域的地位。這兩個(gè)模型將陸續(xù)更新至MiniMax旗下的產(chǎn)品中,包括海螺AI和MiniMax開(kāi)放平臺(tái)。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容