滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 游戲之家 > 正文內(nèi)容

DeepSeek V3驚艷亮相！671B大模型訓(xùn)練成本大降，開(kāi)源細(xì)節(jié)引發(fā)熱議

時(shí)間：2024-12-27 13:15:46 來(lái)源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

在AI界掀起波瀾的DeepSeek V3模型，近日正式發(fā)布并引發(fā)了技術(shù)圈的狂熱討論。這款新版本不僅延續(xù)了其前身的性價(jià)比優(yōu)勢(shì)，更是直接采取了完全開(kāi)源的策略，將訓(xùn)練細(xì)節(jié)詳盡地呈現(xiàn)在53頁(yè)的論文中，展現(xiàn)出前所未有的透明度。

對(duì)于DeepSeek V3，QLoRA一作的評(píng)價(jià)簡(jiǎn)潔而精準(zhǔn)：優(yōu)雅。該模型作為一個(gè)擁有671B參數(shù)的MoE模型，在14.8T的高質(zhì)量token數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練，并激活了37B的參數(shù)。在多項(xiàng)評(píng)測(cè)中，它展現(xiàn)了卓越的性能，超越了如Llama 3.1 405B等開(kāi)源模型，甚至能與GPT-4o、Claude 3.5 Sonnet等頂尖閉源模型一較高下。

meta科學(xué)家田淵棟同樣對(duì)DeepSeek V3的訓(xùn)練效率表示驚嘆，認(rèn)為這是一項(xiàng)非常偉大的工作。據(jù)悉，DeepSeek V3的整個(gè)訓(xùn)練過(guò)程僅用了不到280萬(wàn)個(gè)GPU小時(shí)，與Llama 3 405B的3080萬(wàn)GPU小時(shí)相比，效率提升顯著。從成本上來(lái)看，訓(xùn)練671B的DeepSeek V3僅花費(fèi)了557.6萬(wàn)美元，而訓(xùn)練7B的Llama 2則需要76萬(wàn)美元。

除了性能和價(jià)格優(yōu)勢(shì)外，DeepSeek V3在實(shí)際應(yīng)用中也表現(xiàn)出色。其生成速度提升了3倍，每秒能生成60個(gè)tokens。同時(shí)，其API價(jià)格也相對(duì)親民，每百萬(wàn)輸入tokens的價(jià)格為0.5元（緩存命中）/2元（緩存未命中），每百萬(wàn)輸出tokens的價(jià)格為8元。這一價(jià)格策略使得DeepSeek V3在性價(jià)比方面更具競(jìng)爭(zhēng)力。

為了慶祝新模型的發(fā)布，DeepSeek還推出了45天的優(yōu)惠價(jià)格體驗(yàn)期。在2025年2月8日之前，所有用戶使用DeepSeek V3 API的價(jià)格將分別下降80%（輸入命中）、50%（輸入未命中）和75%（輸出）。這一優(yōu)惠活動(dòng)無(wú)疑將進(jìn)一步吸引用戶嘗試和體驗(yàn)DeepSeek V3。

在技術(shù)層面，DeepSeek V3也帶來(lái)了諸多創(chuàng)新。官方此次一同開(kāi)源了原生FP8權(quán)重，并提供了從FP8到BF16的轉(zhuǎn)換腳本。SGLang和LMDeploy這兩個(gè)框架已支持FP8推理，而TensorRT-LLM和MindIE則支持BF16推理。這些技術(shù)細(xì)節(jié)的優(yōu)化使得DeepSeek V3在性能和效率上都有了顯著提升。

在實(shí)測(cè)中，DeepSeek V3也展現(xiàn)出了強(qiáng)大的能力。首位全職提示詞工程師Riley Goodside設(shè)計(jì)的一道關(guān)于模型版本理解的題目中，DeepSeek V3完全答對(duì)，而ChatGPT和Grok等模型則出現(xiàn)了錯(cuò)誤。DeepSeek V3還能“詭異”地理解整個(gè)項(xiàng)目，只需開(kāi)發(fā)者告訴它最終目標(biāo)是什么。這些實(shí)測(cè)結(jié)果進(jìn)一步證明了DeepSeek V3的卓越性能和實(shí)用性。

DeepSeek V3的成功離不開(kāi)其背后的團(tuán)隊(duì)在算法、框架和硬件方面的協(xié)同優(yōu)化。通過(guò)創(chuàng)新的負(fù)載均衡策略和訓(xùn)練目標(biāo)、FP8混合精度訓(xùn)練框架以及高效的跨節(jié)點(diǎn)通信算法等技術(shù)手段，DeepSeek團(tuán)隊(duì)成功地降低了訓(xùn)練成本并提高了訓(xùn)練效率。這些專業(yè)知識(shí)的積累和實(shí)踐經(jīng)驗(yàn)使得DeepSeek V3能夠在AI界脫穎而出。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

《英雄聯(lián)盟：雙城之戰(zhàn)》的成功，游戲IP影視改編的新出路？

12-27

榮耀時(shí)刻！海峽衛(wèi)視揭曉優(yōu)秀短視頻榮譽(yù)獲得者名單

12-27

酷凜霜界粉色水冷新上市！360 ARGB限定版，無(wú)限鏡燈效美翻

12-27

版號(hào)發(fā)放創(chuàng)新高，心動(dòng)公司股價(jià)上漲，游戲產(chǎn)業(yè)迎來(lái)積極預(yù)期？

12-27

2024年終回顧與展望：游戲、芯片、AI，哪些變了？哪些值得期待？

12-27

《動(dòng)物森友會(huì)》日本實(shí)體銷量奪冠，超越《寶可夢(mèng)》成歷史第一

12-27

DNF重力之泉版本：妖怪殲滅搬磚收益與門票獲取難度解析

12-27

電競(jìng)手機(jī)新紀(jì)元：一加Ace 5系列首發(fā)電競(jìng)Wi-Fi芯片，游戲體驗(yàn)再升級(jí)

12-27

游族網(wǎng)絡(luò)再獲業(yè)界認(rèn)可，金陀螺獎(jiǎng)?wù)蔑@其全球化研運(yùn)實(shí)力

12-27

AL德杯首進(jìn)決賽創(chuàng)歷史，369與The Shy單殺數(shù)據(jù)真相揭曉！

12-27

realme真我Neo7聯(lián)動(dòng)《畫江湖之不良人》，限定禮盒1月3日首銷

12-27

CES 2025看點(diǎn)：AMD Ryzen 9 9950X3D處理器即將震撼登場(chǎng)

12-27

《怪物獵人：旅人》版號(hào)獲批，騰訊天美新游即將來(lái)襲！

12-27

《如龍》20周年大企劃！粉絲有機(jī)會(huì)在游戲中露臉客串

12-27

《米塔》好評(píng)如潮，新版本上線拍照模式及多項(xiàng)優(yōu)化

12-27

點(diǎn)擊查看更多 +

全站最新

樂(lè)道L60火爆！僅百日交付量即破兩萬(wàn)大關(guān)

極越迪拜員工堅(jiān)守崗位，盼股東援手：不想品牌就此消失

豐田中國(guó)：深耕新能源與福祉車，共繪未來(lái)出行新藍(lán)圖

保時(shí)捷電動(dòng)化受挫，內(nèi)燃機(jī)回歸能否成“救星”？

硅陽(yáng)極技術(shù)突破，電動(dòng)汽車?yán)m(xù)航里程能否迎來(lái)大飛躍？

年末購(gòu)車需謹(jǐn)慎！這三款純電SUV月銷量?jī)H個(gè)位數(shù)，問(wèn)題出在哪？

熱門內(nèi)容

本欄最新

《英雄聯(lián)盟：雙城之戰(zhàn)》的成功，游戲IP影視改編的新出路？

榮耀時(shí)刻！海峽衛(wèi)視揭曉優(yōu)秀短視頻榮譽(yù)獲得者名單

酷凜霜界粉色水冷新上市！360 ARGB限定版，無(wú)限鏡燈效美翻

2024年終回顧與展望：游戲、芯片、AI，哪些變了？哪些值得期待？

《動(dòng)物森友會(huì)》日本實(shí)體銷量奪冠，超越《寶可夢(mèng)》成歷史第一

DNF重力之泉版本：妖怪殲滅搬磚收益與門票獲取難度解析

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

DeepSeek V3驚艷亮相！671B大模型訓(xùn)練成本大降，開(kāi)源細(xì)節(jié)引發(fā)熱議

DeepSeek V3驚艷亮相！671B大模型訓(xùn)練成本大降，開(kāi)源細(xì)節(jié)引發(fā)熱議