在兔年春節(jié)的熱鬧氛圍中,DeepSeek如同一顆璀璨的新星,瞬間照亮了全球科技界的天際。從各大媒體的頭條報道到科技巨頭的財報分析,DeepSeek的名字無處不在,成為了業(yè)內(nèi)外關(guān)注的焦點。
在AI領(lǐng)域極具影響力的播客節(jié)目Lex Fridman Podcast,也專門推出了一期長達(dá)五小時的深度訪談,深入探討了DeepSeek對全球AI發(fā)展趨勢的深遠(yuǎn)影響及其背后的技術(shù)優(yōu)勢。此次訪談的嘉賓包括半導(dǎo)體行業(yè)咨詢公司SemiAnalysis的創(chuàng)始人Dylan Patel,以及艾倫人工智能研究院的研究科學(xué)家Nathan Lambert。
Lambert將DeepSeek在強(qiáng)化學(xué)習(xí)領(lǐng)域的突破形象地稱為“DeepSeek時刻”。針對OpenAI對DeepSeek的抄襲指控,Lambert堅定地認(rèn)為,DeepSeek-R1的推理能力并非源自對OpenAI o1推理鏈數(shù)據(jù)的竊取,而是通過強(qiáng)化學(xué)習(xí)的“試錯”模式,讓模型自然而然地發(fā)展出了推理能力。
兩位嘉賓還詳細(xì)剖析了DeepSeek的技術(shù)亮點。與初代的注意力機(jī)制相比,DeepSeek創(chuàng)新的MLA機(jī)制在內(nèi)存使用上降低了80%-90%。同時,DeepSeek通過對MoE架構(gòu)路由機(jī)制的革新,顯著提升了專家模型的使用效率,實現(xiàn)了降本增效的目標(biāo)。
訪談中的三位嘉賓都對DeepSeek的開源模式表示了高度贊賞。Lambert稱其為“真正的開源”,而Fridman則稱贊其技術(shù)報告詳盡且操作性強(qiáng),是開源界的一股積極力量。本地運行開源模型還能有效保護(hù)用戶的隱私數(shù)據(jù)。
在計算資源方面,Patel認(rèn)為DeepSeek的實力在全球名列前茅,僅次于OpenAI、Anthropic、meta等少數(shù)幾家公司。他推測DeepSeek可能擁有約50000張GPU,雖然與國際巨頭的十萬量級儲備相比仍有差距,但考慮到巨頭們需要將算力分配給其他業(yè)務(wù),DeepSeek的算力儲備已相當(dāng)可觀。
DeepSeek的貢獻(xiàn)不僅在于其技術(shù)的突破,更在于其對AI知識的普及。DeepSeek-R1上線后立即開源,并采用了寬松的MIT許可證,沒有對商用和具體用例進(jìn)行限制。這意味著其他開發(fā)者可以利用這款模型輸出合成數(shù)據(jù),訓(xùn)練出高質(zhì)量的模型。DeepSeek的技術(shù)報告不僅詳細(xì)披露了技術(shù)細(xì)節(jié),還分享了開發(fā)過程中的困難與挑戰(zhàn),為全球其他團(tuán)隊改進(jìn)訓(xùn)練技術(shù)提供了寶貴的參考。
DeepSeek團(tuán)隊中不乏能夠優(yōu)化芯片底層代碼、實現(xiàn)高效訓(xùn)練的人才。這類人才在全球范圍內(nèi)都極為稀缺,主要集中在美國的前沿實驗室和像DeepSeek這樣的企業(yè)中。DeepSeek的開源模式也意味著用戶不必聯(lián)網(wǎng)使用AI服務(wù),從而對自己的數(shù)據(jù)擁有完全的掌控權(quán)。
DeepSeek-R1的推理能力是其最引人注目的特點之一。它不僅會展示完整的思維鏈,讓思考過程本身成為一種獨特的美感,還在許多問題上展現(xiàn)出了出色的表現(xiàn)。與DeepSeek-V3相比,R1更傾向于先呈現(xiàn)大量的思維鏈過程,然后再給出最終答案。這種呈現(xiàn)方式不僅增加了答案的深度和可信度,也讓用戶能夠更直觀地理解模型的思考過程。
在技術(shù)突破方面,DeepSeek的多頭注意力機(jī)制在長上下文處理過程中展現(xiàn)出了巨大的優(yōu)勢。與初代注意力機(jī)制相比,這一創(chuàng)新能夠顯著降低內(nèi)存占用。同時,DeepSeek還顯著改進(jìn)了專家混合模型(MoE)的路由機(jī)制,通過引入額外的參數(shù)并不斷更新,使模型能夠更均衡地使用所有專家。DeepSeek還進(jìn)行了CUDA層以下的超底層編程優(yōu)化,精細(xì)地控制核心間的計算和通信任務(wù),從而實現(xiàn)了性能的最大化。
DeepSeek的訓(xùn)練過程也充滿了啟示。在深度學(xué)習(xí)領(lǐng)域,那些具有可擴(kuò)展性的學(xué)習(xí)和搜索方法最終會勝出。DeepSeek通過大量小規(guī)模的失敗逐漸積累經(jīng)驗,最終找到了超參數(shù)的成功組合。這一過程中不斷試錯的精神是至關(guān)重要的。同時,在試錯到一定階段時,開發(fā)者也需要有All-in的勇氣,將全部資源押注于一條路徑上。DeepSeek早期就幾乎賭上了全部資源,這種大膽的舉措最終成就了其在AI領(lǐng)域的領(lǐng)先地位。
在計算資源方面,DeepSeek與幻方量化共享基礎(chǔ)設(shè)施?;梅搅炕?021年就宣稱擁有萬卡A100集群,后期又持續(xù)購入更多的GPU。DeepSeek論文中提到V3模型訓(xùn)練時用了2000個H800 GPU,但SemiAnalysis推測他們實際擁有的GPU數(shù)可能接近50000個。這一規(guī)模在全球范圍內(nèi)名列前茅,僅次于少數(shù)幾家公司。
DeepSeek的出現(xiàn)不僅讓中美雙方都更為直接地感受到了AGI(通用人工智能)的影響,還可能開啟一場AI領(lǐng)域的冷戰(zhàn)。雖然AGI競賽不會是“贏家通吃”的局面,但目前各大玩家都還在牌桌上。DeepSeek時刻很可能是冷戰(zhàn)的開始,但這不是DeepSeek的錯,而是多種因素共同作用的結(jié)果。隨著AI技術(shù)的不斷發(fā)展和算力需求的指數(shù)級增長,即便是DeepSeek這樣的中國企業(yè)也會在大規(guī)模普及AI的過程中面臨挑戰(zhàn)。
盡管未來充滿不確定性,但DeepSeek已經(jīng)以其卓越的技術(shù)實力和開源精神贏得了業(yè)界的廣泛認(rèn)可。它的出現(xiàn)不僅推動了AI知識的普及,更為全球AI領(lǐng)域的發(fā)展注入了新的活力。