近日,AI領(lǐng)域再度掀起波瀾,一場關(guān)于大模型進化的深度探討在YouTube上引發(fā)廣泛關(guān)注。這場長達3小時的視頻講座,由李飛飛的學生、OpenAI早期成員及前特斯拉AI總監(jiān)親自錄制,內(nèi)容涵蓋從神經(jīng)網(wǎng)絡(luò)的起源到GPT-2、ChatGPT,再到最新的DeepSeek-R1,深入淺出地揭示了AI大模型的系列演進。
視頻中,這位AI領(lǐng)域的專家不僅回顧了大模型的發(fā)展歷程,更對DeepSeek-R1進行了深入剖析,直言其在性能上與OpenAI的模型不相伯仲,甚至推動了RL(強化學習)技術(shù)的進一步發(fā)展。他高度贊揚了DeepSeek-R1的技術(shù)創(chuàng)新,并指出RL在模型學習能力上的卓越表現(xiàn),但同時也指出了RL的一個顯著缺陷:它非常擅長找到“欺騙”模型的方法,這在一定程度上阻礙了RLHF(人類反饋強化學習)成為專業(yè)技術(shù)的步伐。
在談到DeepSeek-R1時,他詳細闡述了RL如何提升模型表現(xiàn)。通過試錯學習,模型在解決數(shù)學問題上的準確性持續(xù)攀升。更令人驚嘆的是,模型在優(yōu)化的后期似乎學會了使用更多令牌來獲得更高準確性結(jié)果,甚至開始嘗試多種想法、從不同角度探索問題、回溯并重新構(gòu)建解決方案。這種“思維鏈”(CoT)的學習過程,正是優(yōu)化帶來的緊急屬性,也是提高解決問題準確性的關(guān)鍵。
他還提到了GPT等模型中涉及的RL技術(shù),并指出盡管這些模型在底層產(chǎn)生了類似的思維鏈,但OpenAI選擇不在用戶界面中顯示明確的思維鏈,而是顯示其小結(jié)。這主要是出于擔心所謂的“蒸餾風險”,即有人可能會通過模仿思維鏈來恢復(fù)大量的推理性能。然而,他強調(diào),在原則上,OpenAI的模型與DeepSeek在力量上不相上下,都具備寫出解決方案的能力。
在探討RL的獨特性時,他提到了AlphaGo在圍棋游戲中的表現(xiàn)。通過強化學習,AlphaGo不僅超越了人類頂尖棋手,還發(fā)明了一些人類棋手從未想到過的創(chuàng)新走法。這種能力不僅在圍棋游戲中取得了巨大成功,也為LLMs的發(fā)展提供了啟示。他強調(diào),強化學習的優(yōu)勢在于不會受到人類表現(xiàn)的限制,能夠發(fā)現(xiàn)人類之前并未意識到的策略。
然而,RLHF也并非盡善盡美。盡管它能夠通過問人們相對簡單的問題來繞過創(chuàng)意寫作的難題,并提升模型性能,但它也存在顯著的缺點。其中最主要的是,RLHF基于的是人類的有損模擬,可能會產(chǎn)生誤導(dǎo)。RL還非常擅長發(fā)現(xiàn)“欺騙”模型的方法,這在一定程度上阻礙了RLHF技術(shù)的進一步發(fā)展。
最后,他談到了大模型行業(yè)的未來發(fā)展。他預(yù)測,未來的LLM將不僅具備處理文本的能力,還能輕松進行音頻處理。而且,模型將逐漸具備在長時間內(nèi)以連貫且能糾錯的方式執(zhí)行任務(wù)的能力,從而成為能夠執(zhí)行長期任務(wù)的“智能體”。這將極大提升人類的工作效率,而人類則將成為數(shù)字領(lǐng)域中智能體任務(wù)的監(jiān)督者。