在近期科技界的矚目之下,OpenAI啟動(dòng)了一場(chǎng)為期兩周的盛大新品發(fā)布活動(dòng),命名為“shipmas”,旨在帶來(lái)一系列革新性的功能、產(chǎn)品及演示。活動(dòng)進(jìn)入第二天,OpenAI隆重推出了強(qiáng)化微調(diào)(Reinforcement Fine-Tuning,簡(jiǎn)稱RFT)技術(shù),這一突破性進(jìn)展為開(kāi)發(fā)者和機(jī)器學(xué)習(xí)工程師在構(gòu)建針對(duì)復(fù)雜特定領(lǐng)域任務(wù)的專家模型上開(kāi)辟了新的道路。
強(qiáng)化微調(diào)技術(shù)通過(guò)一種創(chuàng)新的模型定制方法,使得開(kāi)發(fā)者能夠利用精選的高質(zhì)量任務(wù)集對(duì)模型進(jìn)行精細(xì)調(diào)整。該技術(shù)引入了參考答案來(lái)評(píng)估模型的響應(yīng),進(jìn)而顯著提升模型在特定領(lǐng)域任務(wù)中的推理能力和準(zhǔn)確性。這一方法不僅深化了模型處理類似問(wèn)題的能力,還極大提高了其在該領(lǐng)域特定任務(wù)上的表現(xiàn)精度。
OpenAI官方對(duì)強(qiáng)化微調(diào)技術(shù)進(jìn)行了詳細(xì)介紹:開(kāi)發(fā)者可以運(yùn)用數(shù)十至數(shù)千個(gè)高質(zhì)量任務(wù),對(duì)OpenAI的模型進(jìn)行個(gè)性化定制,并通過(guò)參考答案對(duì)模型的回答進(jìn)行評(píng)分。官方指出,RFT技術(shù)通過(guò)強(qiáng)化模型推理過(guò)程,顯著提高了其在特定領(lǐng)域任務(wù)上的準(zhǔn)確性。
與傳統(tǒng)的微調(diào)方法相比,強(qiáng)化微調(diào)利用強(qiáng)化學(xué)習(xí)算法,將模型的表現(xiàn)從一般高水平提升至專家級(jí)水平。RFT不僅超越了標(biāo)準(zhǔn)的監(jiān)督式微調(diào),更讓模型學(xué)會(huì)以一種全新的方式進(jìn)行推理。通過(guò)對(duì)模型答案進(jìn)行評(píng)分并強(qiáng)化正確的推理路徑,RFT技術(shù)僅需少量示例便能顯著提升模型性能。
RFT技術(shù)還允許用戶利用自己的黃金數(shù)據(jù)集創(chuàng)建獨(dú)特的模型,并將其應(yīng)用于法律、金融、工程、保險(xiǎn)等需要深厚專業(yè)知識(shí)的領(lǐng)域。這一技術(shù)的推出,無(wú)疑為這些領(lǐng)域帶來(lái)了人工智能輔助的新機(jī)遇。
OpenAI此次活動(dòng)特別面向研究機(jī)構(gòu)、高校和企業(yè)開(kāi)放申請(qǐng),尤其是那些目前由專家執(zhí)行一系列復(fù)雜狹窄任務(wù),且有望從人工智能輔助中受益的機(jī)構(gòu)。OpenAI表示,強(qiáng)化微調(diào)技術(shù)在結(jié)果具有客觀“正確”答案,且大多數(shù)專家會(huì)達(dá)成一致的任務(wù)中表現(xiàn)出色,因此在法律、保險(xiǎn)、醫(yī)療、金融、工程等領(lǐng)域具有廣泛的應(yīng)用前景。
參與者將有機(jī)會(huì)提前訪問(wèn)Alpha版的強(qiáng)化微調(diào)API,并在特定領(lǐng)域任務(wù)中進(jìn)行測(cè)試。OpenAI還鼓勵(lì)參與者分享數(shù)據(jù)集,共同推動(dòng)OpenAI模型的改進(jìn)。這一舉措不僅促進(jìn)了技術(shù)的開(kāi)放共享,還加速了人工智能技術(shù)的迭代升級(jí)。
OpenAI預(yù)計(jì)將于2025年初公開(kāi)發(fā)布強(qiáng)化微調(diào)功能。OpenAI首席執(zhí)行官山姆·阿爾特曼對(duì)強(qiáng)化微調(diào)技術(shù)給予了高度評(píng)價(jià):“強(qiáng)化微調(diào)的效果令人驚嘆,它是我2024年最大的驚喜之一?!边@一技術(shù)的推出,無(wú)疑將為人工智能技術(shù)的發(fā)展和應(yīng)用開(kāi)啟新的篇章。