滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

谷歌推出“BIG-Bench Mistake”數(shù)據(jù)集，助力語言模型糾錯能力提升

時間：2024-01-15 14:59:11 來源：ITBEAR編輯：快訊團隊 發(fā)表評論無障礙通道

【ITBEAR科技資訊】1月15日消息，近日，谷歌研究院公布了一項新的研究成果，他們利用自家BIG-Bench基準測試構(gòu)建了一個名為“BIG-Bench Mistake”的數(shù)據(jù)集。該數(shù)據(jù)集的主要目的是評估當前市場上流行的語言模型在“出錯概率”及“糾錯能力”方面的表現(xiàn)。

此前，對于大型語言模型的錯誤識別和自我修正能力的評估一直缺乏有效的數(shù)據(jù)集。為了填補這一空白，谷歌研究人員精心設(shè)計了“BIG-Bench Mistake”專用基準數(shù)據(jù)集。他們首先使用PaLM語言模型在BIG-Bench基準測試中執(zhí)行了五項任務，并在其生成的“思維鏈”中故意引入邏輯錯誤。然后，這些包含錯誤的思維鏈被重新提交給模型，以測試其能否識別出其中的錯誤。

經(jīng)過多輪迭代和優(yōu)化，研究人員最終構(gòu)建了一個包含255項邏輯錯誤的“BIG-Bench Mistake”數(shù)據(jù)集。這些錯誤被設(shè)計成簡單明了的形式，以便于語言模型從基本的邏輯錯誤開始逐步提高其錯誤識別能力。

據(jù)ITBEAR科技資訊了解，谷歌研究人員利用該數(shù)據(jù)集對市場上的多個語言模型進行了測試。結(jié)果顯示，雖然大多數(shù)模型能夠在一定程度上識別并修正推理過程中的邏輯錯誤，但這一過程往往不夠理想，仍需要人工干預來完善模型的輸出。

在測試中表現(xiàn)最好的模型也僅能識別出52.9%的邏輯錯誤，這表明即便是目前最先進的大型語言模型在自我糾錯方面仍存在較大提升空間。谷歌研究人員認為，“BIG-Bench Mistake”數(shù)據(jù)集將有助于改進模型的自我糾錯能力。通過針對相關(guān)測試任務進行微調(diào)，即便是小型模型也能在監(jiān)督大型模型時表現(xiàn)出更好的性能。

因此，谷歌提出了一種新的思路，即使用專用的小型模型來監(jiān)督大型模型的運行。這種做法不僅有利于提高效率、降低AI部署成本，還能更方便地對模型進行微調(diào)。未來，這種大小模型協(xié)同工作的方式或許將成為提升AI性能的重要方向之一。

標簽： 谷歌

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

蘋果AI尋中國“盟友”，騰訊字節(jié)誰能“入果”？iPhone創(chuàng)新何在？

12-19

天陽科技與SS&C攜手，億元打造Algorithmics軟件獨家信創(chuàng)版

12-19

值得買科技榮獲卓越發(fā)展大獎，創(chuàng)新驅(qū)動消費產(chǎn)業(yè)高質(zhì)量發(fā)展

12-19

訊飛智作斬獲獵云網(wǎng)2024“年度生成式AI創(chuàng)新”大獎，AIGC未來可期

12-19

榮耀MagicOS 9.0升級全解析：新功能適配進度與長焦拍照優(yōu)化進行時

12-19

閃極AI“拍拍鏡”來襲：智能眼鏡新體驗，售價999元起接入大模型

12-19

閃極AI拍拍鏡震撼上市！國內(nèi)首款量產(chǎn)，售價僅999元起

12-19

蘋果中國AI大模型合作引關(guān)注，字節(jié)騰訊誰將脫穎而出？

值得一題的是，12月19日，北京智源人工智能研究院（智院研究員）發(fā)布國內(nèi)外100余個開源和商業(yè)閉源模型多份評測結(jié)果，作為今年英偉達全球第二大買家、擁有23萬張GPU的字節(jié)跳動豆包大模型名列前茅，語言模型結(jié)果…

12-19

張一鳴私募新動作，重心已悄然轉(zhuǎn)向大模型與AI戰(zhàn)略？

12-19

算力硬件引領(lǐng)市場熱潮，豆包概念股能否持續(xù)走強？

12-19

市場分化算力硬件爆發(fā)，抖音微信小店概念股活躍，后市如何演繹？

12-19

北證50深V反轉(zhuǎn)，AI硬件與微信小店成市場新寵？

12-19

OpenAI Canvas大升級：React渲染與文本格式化新工具來襲

12-19

OpenAI新招！ChatGPT熱線電話服務上線，老年機座機也能聊

12-19

AMD蘇姿豐領(lǐng)投，Liquid AI崛起：機器人之母帶隊，AI賽道再掀狂瀾

12-19

點擊查看更多 +

全站最新

余承東回憶：與北汽合作始于2017年一張PPT開啟華為汽車夢

榮耀Magic7 RSR保時捷設(shè)計：100倍AI長焦，樣張細節(jié)震撼曝光！

蘋果iOS 18.1.1關(guān)閉降級通道，用戶需擁抱iOS 18.2新功能

國產(chǎn)DDR5內(nèi)存新突破！499元32GB高性價比套裝來襲

余承東直言：車廠合作需求旺，華為資源有限如何應對？

吉利星艦7 EM-i上市即火，插混SUV市場新勢力崛起！

熱門內(nèi)容

本欄最新

蘋果AI尋中國“盟友”，騰訊字節(jié)誰能“入果”？iPhone創(chuàng)新何在？

天陽科技與SS&C攜手，億元打造Algorithmics軟件獨家信創(chuàng)版

值得買科技榮獲卓越發(fā)展大獎，創(chuàng)新驅(qū)動消費產(chǎn)業(yè)高質(zhì)量發(fā)展

訊飛智作斬獲獵云網(wǎng)2024“年度生成式AI創(chuàng)新”大獎，AIGC未來可期

榮耀MagicOS 9.0升級全解析：新功能適配進度與長焦拍照優(yōu)化進行時

閃極AI“拍拍鏡”來襲：智能眼鏡新體驗，售價999元起接入大模型

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.