近日,五位高校教授齊聚一堂,在線上深入探討DeepSeek的技術(shù)原理和未來方向。這次討論不僅揭秘了DeepSeek如何通過優(yōu)化方法提升算力能效,還回應(yīng)了業(yè)界對于復(fù)現(xiàn)o1大推理模型、DeepSeek的技術(shù)路線和訓(xùn)練流程等多個熱點(diǎn)問題的關(guān)注。
北京交通大學(xué)教授金一擔(dān)任此次線上分享的主持人,復(fù)旦大學(xué)教授邱錫鵬、清華大學(xué)副教授劉知遠(yuǎn)、清華大學(xué)教授翟季冬以及上海交通大學(xué)副教授戴國浩從不同專業(yè)角度分享了他們對DeepSeek的見解。
邱錫鵬教授首先介紹了DeepSeek的R1技術(shù)路線圖,并強(qiáng)調(diào)強(qiáng)推理模型的最終目標(biāo)是實(shí)現(xiàn)Agent功能。他指出,OpenAI的o1模型通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了顯著的推理能力,而DeepSeek則在此基礎(chǔ)上通過策略初始化、獎勵設(shè)計(jì)、搜索和學(xué)習(xí)等四個方面進(jìn)行了優(yōu)化。邱教授特別提到了R1-Zero模型,該模型通過純強(qiáng)化學(xué)習(xí)訓(xùn)練,逐步涌現(xiàn)出長思維鏈能力。
劉知遠(yuǎn)教授從宏觀角度分析了DeepSeek-R1的價(jià)值。他認(rèn)為,DeepSeek是全球首個通過純強(qiáng)化學(xué)習(xí)技術(shù)復(fù)現(xiàn)o1能力的團(tuán)隊(duì),并為行業(yè)做出了重要貢獻(xiàn)。劉教授指出,DeepSeek-R1的訓(xùn)練流程有兩大亮點(diǎn):一是基于DeepSeek-V1基座模型的大規(guī)模強(qiáng)化學(xué)習(xí),二是通過深度推理SFT數(shù)據(jù)和通用SFT數(shù)據(jù)的混合微調(diào),實(shí)現(xiàn)了推理能力的跨任務(wù)泛化。
翟季冬教授則詳細(xì)介紹了DeepSeek在系統(tǒng)軟件方面的優(yōu)化工作。他提到,DeepSeek通過負(fù)載均衡、通信優(yōu)化、內(nèi)存優(yōu)化和計(jì)算優(yōu)化等手段,大幅提升了訓(xùn)練效率,從而降低了訓(xùn)練成本。翟教授特別強(qiáng)調(diào)了MoE架構(gòu)在DeepSeek中的應(yīng)用,以及如何通過創(chuàng)新解決MoE帶來的負(fù)載均衡問題。
戴國浩教授則就DeepSeek在軟硬件協(xié)同優(yōu)化方面的工作進(jìn)行了討論。他提到,DeepSeek通過定制的PTX指令和自動調(diào)整通信塊大小,顯著減少了L2緩存的使用和對其他SM的干擾,從而提升了系統(tǒng)性能。戴教授還強(qiáng)調(diào)了軟硬件協(xié)同優(yōu)化的重要性,并指出未來國產(chǎn)芯片和國內(nèi)芯片組合將成為大模型優(yōu)化的新興熱點(diǎn)方向。
在隨后的問答環(huán)節(jié)中,教授們就DeepSeek的技術(shù)亮點(diǎn)、成功原因以及對中國大模型未來發(fā)展的啟示等問題進(jìn)行了深入探討。邱錫鵬教授認(rèn)為,DeepSeek的成功得益于長期積累、軟硬件協(xié)同創(chuàng)新和高效團(tuán)隊(duì)支持。劉知遠(yuǎn)教授則強(qiáng)調(diào)了技術(shù)理想主義和長期主義的重要性,并認(rèn)為DeepSeek為中國AI團(tuán)隊(duì)樹立了榜樣。
翟季冬教授和戴國浩教授則分別從創(chuàng)新和軟硬件協(xié)同優(yōu)化的角度分享了他們的見解。翟教授認(rèn)為創(chuàng)新是社會進(jìn)步和個人發(fā)展的永恒動力,而戴教授則強(qiáng)調(diào)了軟硬件協(xié)同優(yōu)化在未來AI發(fā)展中的重要性。
教授們還就MoE架構(gòu)是否是最優(yōu)解、長思維鏈模型對硬件的需求以及PTX方法的通用性等問題進(jìn)行了討論。他們一致認(rèn)為,未來AI的發(fā)展將沿著高效性的方向前進(jìn),而創(chuàng)新和軟硬件協(xié)同優(yōu)化將是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。