ITBear旗下自媒體矩陣:

OpenAI新安全對(duì)齊法:深思熟慮對(duì)齊,讓AI更安全可控?

   時(shí)間:2024-12-25 15:19:29 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

近期,OpenAI的研究團(tuán)隊(duì)宣布了一項(xiàng)名為“深思熟慮的對(duì)齊”的創(chuàng)新技術(shù),旨在提升人工智能模型的安全性,特別是在大型語言模型(LLMs)領(lǐng)域。這項(xiàng)技術(shù)已經(jīng)在o系列模型中得到了成功應(yīng)用,并顯示出顯著的成效。

面對(duì)確保大型語言模型遵循道德和安全標(biāo)準(zhǔn)的挑戰(zhàn),現(xiàn)有的對(duì)齊技術(shù),如監(jiān)督微調(diào)(SFT)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),雖有其優(yōu)勢(shì),但也存在明顯的局限。這些技術(shù)有時(shí)會(huì)被惡意提示所操縱,導(dǎo)致生成有害內(nèi)容、拒絕合理請(qǐng)求或在面對(duì)陌生情境時(shí)表現(xiàn)不佳。這些問題的根源在于,模型往往是從數(shù)據(jù)中間接推斷安全標(biāo)準(zhǔn),而非直接學(xué)習(xí)并理解這些標(biāo)準(zhǔn)。

為了解決這個(gè)問題,“深思熟慮的對(duì)齊”方法應(yīng)運(yùn)而生。它直接教授模型安全規(guī)范,并訓(xùn)練模型在生成響應(yīng)之前,先對(duì)這些規(guī)范進(jìn)行推理,將安全原則內(nèi)化為模型的一部分。這種方法不僅增強(qiáng)了模型的安全性,還提高了其在復(fù)雜或?qū)剐郧榫诚碌膽?yīng)對(duì)能力。

該技術(shù)的實(shí)施分為兩個(gè)階段。在第一階段,通過監(jiān)督微調(diào)(SFT),模型學(xué)會(huì)了參考并推理安全規(guī)范,這一過程利用了從基礎(chǔ)模型生成的數(shù)據(jù)集。第二階段則引入了強(qiáng)化學(xué)習(xí)(RL),使用獎(jiǎng)勵(lì)模型根據(jù)安全基準(zhǔn)評(píng)估模型的性能,進(jìn)一步優(yōu)化其推理能力。值得注意的是,“深思熟慮的對(duì)齊”方法減少了對(duì)人工標(biāo)注數(shù)據(jù)的依賴,而是利用模型生成的數(shù)據(jù)和思維鏈(CoT)推理,從而降低了安全訓(xùn)練的資源成本。

OpenAI的o1模型已經(jīng)部署了這項(xiàng)技術(shù),并在實(shí)際測(cè)試中取得了令人矚目的成績。在抵抗越獄提示方面,o1模型在StrongREJECT基準(zhǔn)測(cè)試中的得分高達(dá)0.88,遠(yuǎn)超過GPT-4o的0.37分。同時(shí),這項(xiàng)技術(shù)還有效減少了誤拒現(xiàn)象,在XSTest數(shù)據(jù)集的良性提示中,o1模型的準(zhǔn)確率達(dá)到了93%。

“深思熟慮的對(duì)齊”方法通過訓(xùn)練模型明確推理安全策略,為復(fù)雜的倫理挑戰(zhàn)提供了切實(shí)可行的解決方案。這種方法不僅提高了模型的安全性,還增強(qiáng)了其可解釋性和可擴(kuò)展性,為人工智能技術(shù)的未來發(fā)展開辟了新的道路。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version