在科技界的密切關(guān)注下,OpenAI于近日揭曉了其連續(xù)發(fā)布計(jì)劃的第二部分,時(shí)間定格在北京時(shí)間12月7日的凌晨。這場直播不僅吸引了全球科技愛好者的眼球,還帶來了一個(gè)名為“強(qiáng)化微調(diào)”的全新概念。
據(jù)OpenAI透露,強(qiáng)化微調(diào)是一種革命性的模型定制技術(shù),旨在通過小規(guī)模特定領(lǐng)域數(shù)據(jù)的進(jìn)一步訓(xùn)練,將預(yù)訓(xùn)練好的大型語言模型推向更高的專業(yè)化水平。這一過程好比讓一個(gè)博學(xué)多才的“通才”通過針對性訓(xùn)練,成為某一領(lǐng)域的“頂尖專家”。
OpenAI高管形象地比喻,強(qiáng)化微調(diào)能將大型語言模型的能力從“高中水平”躍升至“博士級專家”的高度,為高校、研究人員和企業(yè)提供了量身打造AI解決方案的可能。例如,OpenAI正與湯森路透攜手,致力于開發(fā)一個(gè)專為法律領(lǐng)域定制的AI模型。
雖然OpenAI CEO Sam Altman并未現(xiàn)身此次直播,但他在社交媒體上難掩興奮之情,稱贊強(qiáng)化微調(diào)為“2024年最大的驚喜”,并期待看到人們基于這一技術(shù)構(gòu)建出的新奇應(yīng)用。
一位AI大模型應(yīng)用企業(yè)的創(chuàng)始人對36氪表示,強(qiáng)化微調(diào)對于普通用戶來說或許并不直接相關(guān),但對于專業(yè)領(lǐng)域的工作者來說,卻是一項(xiàng)極具價(jià)值的新技術(shù)。它極大地降低了行業(yè)專家級大模型的實(shí)現(xiàn)難度。
在直播現(xiàn)場,OpenAI展示了強(qiáng)化微調(diào)的一個(gè)具體應(yīng)用案例——罕見遺傳病研究。通過與伯克利實(shí)驗(yàn)室和德國Charité醫(yī)院的研究人員合作,OpenAI使用強(qiáng)化微調(diào)技術(shù)訓(xùn)練了GPT o1 Mini模型。這個(gè)模型在推理罕見疾病成因方面表現(xiàn)出色,甚至超越了體積更大的GPT o1模型,展現(xiàn)了其在復(fù)雜病情診斷和理解方面的巨大潛力。
值得注意的是,強(qiáng)化微調(diào)與傳統(tǒng)微調(diào)方法有著本質(zhì)的不同。傳統(tǒng)微調(diào)往往只是讓模型“記住答案”,而強(qiáng)化微調(diào)則更注重訓(xùn)練模型在特定領(lǐng)域中學(xué)會推理,從而找到正確答案。這一方法采用了兩個(gè)不同的數(shù)據(jù)集合:微調(diào)數(shù)據(jù)集和測試數(shù)據(jù)集。模型首先基于微調(diào)數(shù)據(jù)集進(jìn)行訓(xùn)練,然后通過測試數(shù)據(jù)集進(jìn)行驗(yàn)證,經(jīng)過反復(fù)自我推理訓(xùn)練驗(yàn)證,最終達(dá)到很高的性能水平。因此,即使在數(shù)據(jù)量有限的情況下(有時(shí)僅需幾十個(gè)樣本),強(qiáng)化微調(diào)也能實(shí)現(xiàn)顯著的性能提升。
然而,目前強(qiáng)化微調(diào)方案仍處于研究預(yù)覽階段,OpenAI計(jì)劃在2025年全面推出。為了進(jìn)一步優(yōu)化模型性能,OpenAI正在邀請研究機(jī)構(gòu)、大學(xué)以及企業(yè)參與強(qiáng)化微調(diào)研究計(jì)劃,并希望與愿意共享數(shù)據(jù)集的組織合作。
OpenAI還展示了強(qiáng)化微調(diào)在多個(gè)領(lǐng)域的潛在應(yīng)用,包括金融、醫(yī)療、教育等。這些應(yīng)用不僅展示了強(qiáng)化微調(diào)技術(shù)的廣泛適用性,也為其未來的商業(yè)化應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
隨著強(qiáng)化微調(diào)技術(shù)的不斷成熟和推出,我們有理由相信,這一技術(shù)將在未來為各行各業(yè)帶來更加智能化、高效化的解決方案。
同時(shí),OpenAI的開放合作態(tài)度也為這一技術(shù)的廣泛應(yīng)用提供了有力支持。通過邀請更多合作伙伴參與研究計(jì)劃,OpenAI旨在共同推動(dòng)AI技術(shù)的創(chuàng)新與發(fā)展,為人類社會創(chuàng)造更多價(jià)值。