在ChatGPT掀起人工智能浪潮的第二年,OpenAI與國(guó)內(nèi)的AI企業(yè)正悄然轉(zhuǎn)向,試圖超越這一里程碑式的產(chǎn)品。隨著關(guān)于Scaling Law能力上限的討論日益增多,今年9月,OpenAI帶著其全新系列模型o1震撼登場(chǎng),再次將“會(huì)思考的大模型”推向了科技前沿。
OpenAI的首席執(zhí)行官奧特曼對(duì)o1的發(fā)布充滿(mǎn)信心,他堅(jiān)信這一模型不僅證明了AI的發(fā)展并未放緩,反而預(yù)示著未來(lái)幾年內(nèi),AI領(lǐng)域?qū)⒂瓉?lái)新的突破與成就。在國(guó)內(nèi),眾多大模型廠(chǎng)商迅速響應(yīng),紛紛加入到對(duì)o1的學(xué)習(xí)與超越的行列中。
僅僅兩個(gè)月后,國(guó)內(nèi)的大模型市場(chǎng)便涌現(xiàn)出了一批各具特色的o1類(lèi)深度思考模型。從kimi的k0 math到Deepseek的DeepSeek-R1-Lite,再到昆侖萬(wàn)維推出的“天工大模型4.0”o1版,這些模型無(wú)一不強(qiáng)調(diào)著邏輯思考能力的重要性,標(biāo)志著國(guó)內(nèi)AI大模型在這一領(lǐng)域的深入探索。
在OpenAI未公開(kāi)o1具體技術(shù)細(xì)節(jié)的情況下,國(guó)內(nèi)大模型企業(yè)憑借敏銳的洞察力和強(qiáng)大的研發(fā)實(shí)力,僅用了兩個(gè)月的時(shí)間便跟上了這一前沿趨勢(shì)。11月16日,月之暗面發(fā)布了k0 math模型,通過(guò)強(qiáng)化學(xué)習(xí)和思維鏈推理技術(shù),實(shí)現(xiàn)了對(duì)人類(lèi)思考和反思過(guò)程的模擬,極大地提升了數(shù)學(xué)推理能力。
緊接著,四天后,Deepseek推出了DeepSeek-R1-Lite模型。與OpenAI的o1相比,R1毫無(wú)保留地展示了其完整的思考過(guò)程,思維鏈長(zhǎng)度可達(dá)數(shù)萬(wàn)字。在A(yíng)IME(美國(guó)數(shù)學(xué)競(jìng)賽)和部分編程比賽的測(cè)試中,R1的表現(xiàn)甚至超越了o1-Preview。Deepseek還在官網(wǎng)上提供了測(cè)試版,允許用戶(hù)每天體驗(yàn)50次對(duì)話(huà)。
隨后,昆侖萬(wàn)維也推出了具有復(fù)雜思考推理能力的天工大模型4.0 o1版(Skywork o1),并宣布它是國(guó)內(nèi)首款實(shí)現(xiàn)中文邏輯推理的模型。Skywork o1提供了三種版本,包括開(kāi)源的Skywork O1 Open、優(yōu)化中文支持能力的Skywork O1 Lite,以及完整展現(xiàn)模型思考過(guò)程的Skywork O1 Preview。
這些國(guó)產(chǎn)“o1”大模型并非簡(jiǎn)單的復(fù)刻,而是通過(guò)引入思維鏈(CoT)技術(shù),將復(fù)雜問(wèn)題拆解為多個(gè)小問(wèn)題,模擬人類(lèi)逐步推理的過(guò)程。強(qiáng)化學(xué)習(xí)使大模型能夠嘗試多種解題方法,并根據(jù)反饋調(diào)整策略,從而實(shí)現(xiàn)了自我學(xué)習(xí)和反思的能力。這種“慢思考”模式讓大模型在一些往常無(wú)法解決的問(wèn)題上也能給出正確答案。
然而,“慢思考”模型也面臨著挑戰(zhàn)。雖然它們?cè)谔囟▽W(xué)科上的表現(xiàn)突飛猛進(jìn),但大量耗費(fèi)tokens的方式未必能換來(lái)用戶(hù)期望的回報(bào)。在某些情況下,增加思維鏈的長(zhǎng)度可以提高效率,但并不意味著在所有情況下都是最優(yōu)解。因此,大模型需要學(xué)會(huì)對(duì)問(wèn)題難度進(jìn)行判別,從而決定是否采用深度思考模式回答對(duì)應(yīng)問(wèn)題。
從特定場(chǎng)景下的強(qiáng)化學(xué)習(xí)應(yīng)用轉(zhuǎn)向通用模型,在訓(xùn)練算力和成本的平衡上還存在一定難度。目前,“慢思考”類(lèi)大模型開(kāi)發(fā)的基座模型參數(shù)普遍不大,還需要一定時(shí)間才能跑出真正能夠釋放思維鏈能力的模型。
盡管如此,大廠(chǎng)們?nèi)詫1視為下一個(gè)必備項(xiàng)。在OpenAI和智譜給出的“通往AGI五階段”的定義中,o1的出現(xiàn)標(biāo)志著大模型能力從L1階段(多模態(tài)和大語(yǔ)言模型能力)突破到了L2階段(邏輯思維能力)。國(guó)內(nèi)廠(chǎng)商在同步跟進(jìn)o1類(lèi)產(chǎn)品的同時(shí),已經(jīng)開(kāi)始思考如何將o1的能力與現(xiàn)有AI應(yīng)用方向結(jié)合,探索更大的可能性。