ITBear旗下自媒體矩陣:

谷歌推出“BIG-Bench Mistake”數(shù)據(jù)集,助力語言模型糾錯能力提升

   時間:2024-01-15 14:59:11 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

【ITBEAR科技資訊】1月15日消息,近日,谷歌研究院公布了一項新的研究成果,他們利用自家BIG-Bench基準測試構(gòu)建了一個名為“BIG-Bench Mistake”的數(shù)據(jù)集。該數(shù)據(jù)集的主要目的是評估當前市場上流行的語言模型在“出錯概率”及“糾錯能力”方面的表現(xiàn)。

此前,對于大型語言模型的錯誤識別和自我修正能力的評估一直缺乏有效的數(shù)據(jù)集。為了填補這一空白,谷歌研究人員精心設(shè)計了“BIG-Bench Mistake”專用基準數(shù)據(jù)集。他們首先使用PaLM語言模型在BIG-Bench基準測試中執(zhí)行了五項任務,并在其生成的“思維鏈”中故意引入邏輯錯誤。然后,這些包含錯誤的思維鏈被重新提交給模型,以測試其能否識別出其中的錯誤。

經(jīng)過多輪迭代和優(yōu)化,研究人員最終構(gòu)建了一個包含255項邏輯錯誤的“BIG-Bench Mistake”數(shù)據(jù)集。這些錯誤被設(shè)計成簡單明了的形式,以便于語言模型從基本的邏輯錯誤開始逐步提高其錯誤識別能力。

據(jù)ITBEAR科技資訊了解,谷歌研究人員利用該數(shù)據(jù)集對市場上的多個語言模型進行了測試。結(jié)果顯示,雖然大多數(shù)模型能夠在一定程度上識別并修正推理過程中的邏輯錯誤,但這一過程往往不夠理想,仍需要人工干預來完善模型的輸出。

在測試中表現(xiàn)最好的模型也僅能識別出52.9%的邏輯錯誤,這表明即便是目前最先進的大型語言模型在自我糾錯方面仍存在較大提升空間。谷歌研究人員認為,“BIG-Bench Mistake”數(shù)據(jù)集將有助于改進模型的自我糾錯能力。通過針對相關(guān)測試任務進行微調(diào),即便是小型模型也能在監(jiān)督大型模型時表現(xiàn)出更好的性能。

因此,谷歌提出了一種新的思路,即使用專用的小型模型來監(jiān)督大型模型的運行。這種做法不僅有利于提高效率、降低AI部署成本,還能更方便地對模型進行微調(diào)。未來,這種大小模型協(xié)同工作的方式或許將成為提升AI性能的重要方向之一。

標簽: 谷歌
舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version