在AI界掀起波瀾的DeepSeek V3模型,近日正式發(fā)布并引發(fā)了技術(shù)圈的狂熱討論。這款新版本不僅延續(xù)了其前身的性價(jià)比優(yōu)勢(shì),更是直接采取了完全開(kāi)源的策略,將訓(xùn)練細(xì)節(jié)詳盡地呈現(xiàn)在53頁(yè)的論文中,展現(xiàn)出前所未有的透明度。
對(duì)于DeepSeek V3,QLoRA一作的評(píng)價(jià)簡(jiǎn)潔而精準(zhǔn):優(yōu)雅。該模型作為一個(gè)擁有671B參數(shù)的MoE模型,在14.8T的高質(zhì)量token數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練,并激活了37B的參數(shù)。在多項(xiàng)評(píng)測(cè)中,它展現(xiàn)了卓越的性能,超越了如Llama 3.1 405B等開(kāi)源模型,甚至能與GPT-4o、Claude 3.5 Sonnet等頂尖閉源模型一較高下。
meta科學(xué)家田淵棟同樣對(duì)DeepSeek V3的訓(xùn)練效率表示驚嘆,認(rèn)為這是一項(xiàng)非常偉大的工作。據(jù)悉,DeepSeek V3的整個(gè)訓(xùn)練過(guò)程僅用了不到280萬(wàn)個(gè)GPU小時(shí),與Llama 3 405B的3080萬(wàn)GPU小時(shí)相比,效率提升顯著。從成本上來(lái)看,訓(xùn)練671B的DeepSeek V3僅花費(fèi)了557.6萬(wàn)美元,而訓(xùn)練7B的Llama 2則需要76萬(wàn)美元。
除了性能和價(jià)格優(yōu)勢(shì)外,DeepSeek V3在實(shí)際應(yīng)用中也表現(xiàn)出色。其生成速度提升了3倍,每秒能生成60個(gè)tokens。同時(shí),其API價(jià)格也相對(duì)親民,每百萬(wàn)輸入tokens的價(jià)格為0.5元(緩存命中)/2元(緩存未命中),每百萬(wàn)輸出tokens的價(jià)格為8元。這一價(jià)格策略使得DeepSeek V3在性價(jià)比方面更具競(jìng)爭(zhēng)力。
為了慶祝新模型的發(fā)布,DeepSeek還推出了45天的優(yōu)惠價(jià)格體驗(yàn)期。在2025年2月8日之前,所有用戶使用DeepSeek V3 API的價(jià)格將分別下降80%(輸入命中)、50%(輸入未命中)和75%(輸出)。這一優(yōu)惠活動(dòng)無(wú)疑將進(jìn)一步吸引用戶嘗試和體驗(yàn)DeepSeek V3。
在技術(shù)層面,DeepSeek V3也帶來(lái)了諸多創(chuàng)新。官方此次一同開(kāi)源了原生FP8權(quán)重,并提供了從FP8到BF16的轉(zhuǎn)換腳本。SGLang和LMDeploy這兩個(gè)框架已支持FP8推理,而TensorRT-LLM和MindIE則支持BF16推理。這些技術(shù)細(xì)節(jié)的優(yōu)化使得DeepSeek V3在性能和效率上都有了顯著提升。
在實(shí)測(cè)中,DeepSeek V3也展現(xiàn)出了強(qiáng)大的能力。首位全職提示詞工程師Riley Goodside設(shè)計(jì)的一道關(guān)于模型版本理解的題目中,DeepSeek V3完全答對(duì),而ChatGPT和Grok等模型則出現(xiàn)了錯(cuò)誤。DeepSeek V3還能“詭異”地理解整個(gè)項(xiàng)目,只需開(kāi)發(fā)者告訴它最終目標(biāo)是什么。這些實(shí)測(cè)結(jié)果進(jìn)一步證明了DeepSeek V3的卓越性能和實(shí)用性。
DeepSeek V3的成功離不開(kāi)其背后的團(tuán)隊(duì)在算法、框架和硬件方面的協(xié)同優(yōu)化。通過(guò)創(chuàng)新的負(fù)載均衡策略和訓(xùn)練目標(biāo)、FP8混合精度訓(xùn)練框架以及高效的跨節(jié)點(diǎn)通信算法等技術(shù)手段,DeepSeek團(tuán)隊(duì)成功地降低了訓(xùn)練成本并提高了訓(xùn)練效率。這些專業(yè)知識(shí)的積累和實(shí)踐經(jīng)驗(yàn)使得DeepSeek V3能夠在AI界脫穎而出。