滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

谷歌新推FACTS Grounding基準(zhǔn)，大語(yǔ)言模型能否擺脫“幻覺”困擾？

時(shí)間：2024-12-18 14:08:05 來源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

近日，谷歌DeepMind團(tuán)隊(duì)發(fā)布了一項(xiàng)名為FACTS Grounding的全新基準(zhǔn)測(cè)試，旨在提升大型語(yǔ)言模型（LLMs）的事實(shí)準(zhǔn)確性，增強(qiáng)用戶的信任感，并拓寬其應(yīng)用邊界。該測(cè)試的核心在于評(píng)估LLMs能否根據(jù)給定材料準(zhǔn)確作答，同時(shí)避免產(chǎn)生“幻覺”，即不捏造信息。

在數(shù)據(jù)集層面，F(xiàn)ACTS Grounding數(shù)據(jù)集精心編制了1719個(gè)涵蓋金融、科技、零售、醫(yī)療和法律等多個(gè)領(lǐng)域的示例。每個(gè)示例均包含一篇文檔、一條要求LLM基于文檔的系統(tǒng)指令以及相應(yīng)的提示詞。這些文檔的長(zhǎng)度各異，最長(zhǎng)的文檔包含約20000字的內(nèi)容，確保了數(shù)據(jù)集的豐富性和多樣性。用戶請(qǐng)求的類型多樣，包括摘要、問答生成和改寫等，但不涉及需要?jiǎng)?chuàng)造力、數(shù)學(xué)或復(fù)雜推理的任務(wù)。

數(shù)據(jù)集被巧妙地分為860個(gè)“公共”示例和859個(gè)“私有”示例。目前，公共數(shù)據(jù)集已公開發(fā)布，供研究人員和開發(fā)者進(jìn)行評(píng)估使用。而私有數(shù)據(jù)集則用于排行榜評(píng)分，這一設(shè)計(jì)旨在防止基準(zhǔn)污染和排行榜作弊，確保評(píng)估的公正性和準(zhǔn)確性。

在評(píng)估方案上，F(xiàn)ACTS Grounding基準(zhǔn)測(cè)試采用了Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet三款先進(jìn)的模型作為評(píng)委，它們將共同評(píng)估答案的充分性、事實(shí)準(zhǔn)確性和文檔支持性。這一多模型評(píng)估體系能夠更全面、客觀地反映LLMs在事實(shí)準(zhǔn)確性方面的表現(xiàn)。

評(píng)估過程分為兩個(gè)階段。首先，評(píng)委們會(huì)判斷響應(yīng)是否符合資格，即是否充分回答了用戶請(qǐng)求。接著，他們會(huì)評(píng)估響應(yīng)的事實(shí)準(zhǔn)確性，即是否完全基于所提供的文檔，沒有產(chǎn)生“幻覺”。最終，基于模型在所有示例上的平均得分，計(jì)算出每個(gè)LLM在FACTS Grounding基準(zhǔn)測(cè)試中的表現(xiàn)。

值得注意的是，在FACTS Grounding基準(zhǔn)測(cè)試中，谷歌自家的Gemini模型在事實(shí)準(zhǔn)確的文本生成方面脫穎而出，取得了最高分。這一成績(jī)不僅展示了Gemini模型在事實(shí)準(zhǔn)確性方面的卓越表現(xiàn)，也驗(yàn)證了FACTS Grounding基準(zhǔn)測(cè)試的有效性和可靠性。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

3000元預(yù)算，解鎖48V至72V大牌電動(dòng)車，哪款更適合你？

12-22

短劇熱度榜出爐！《當(dāng)年不肯嫁春風(fēng)》領(lǐng)跑，大盤熱度突破6111萬

12-22

理想L9車主巧思創(chuàng)業(yè)：車載冰箱固定架半年狂賺130萬！

12-22

馬斯克SpaceX登頂全球最大獨(dú)角獸，中國(guó)商業(yè)航天能否迎頭趕上？

12-22

realme真我售后網(wǎng)點(diǎn)突破500家，八家新店本周大學(xué)城開業(yè)

12-22

我國(guó)最大“漁光互補(bǔ)”項(xiàng)目并網(wǎng)！年均發(fā)電量可滿足279萬戶居民需求

12-22

華為等15家單位攜手開源：openHiTLS密碼套件引領(lǐng)全場(chǎng)景數(shù)智安全

12-22

我國(guó)軟件開發(fā)者超940萬，開源鴻蒙領(lǐng)跑，成全球開源增長(zhǎng)最快國(guó)家

12-22

Firefly獲NASA大單！2028年六臺(tái)科學(xué)儀器將登陸月球探索未知

12-22

長(zhǎng)三甲系列火箭再傳捷報(bào)，未來幾年每年保持十幾發(fā)高密度發(fā)射！

12-22

國(guó)內(nèi)首制！110米旋轉(zhuǎn)式打樁船“三航樁22”順利交付

12-22

華晨禾一新品震撼登場(chǎng)，攜手美國(guó)TMSI共啟科技合作新紀(jì)元

12-22

西部智聯(lián)閃耀陜汽年會(huì)，新能源重卡創(chuàng)新方案引領(lǐng)行業(yè)未來

12-22

納米盒納斯達(dá)克補(bǔ)辦敲鐘，年?duì)I收近4億僅募資500萬美金

12-21

有信科技納斯達(dá)克上市首日破發(fā)，募資千萬美元市場(chǎng)表現(xiàn)不佳

12-21

點(diǎn)擊查看更多 +

全站最新

馬航失聯(lián)十年，老父堅(jiān)守希望：兒子是否真在平行世界？

宇宙膨脹加速，光速飛行也難觸邊？探索宇宙無盡之謎

太陽(yáng)系邊緣的亡神星：冥王星的神秘“親戚”，藏著哪些宇宙秘密？

人造月亮計(jì)劃擱淺背后：技術(shù)、成本與環(huán)境挑戰(zhàn)如何破解？

布加迪Tourbillon登陸中國(guó)，V16混動(dòng)1800馬力，極速挑戰(zhàn)445km/h！

火星奧林帕斯山：太陽(yáng)系之巔，揭示火星地質(zhì)奧秘與探索新篇章

熱門內(nèi)容

本欄最新

3000元預(yù)算，解鎖48V至72V大牌電動(dòng)車，哪款更適合你？

短劇熱度榜出爐！《當(dāng)年不肯嫁春風(fēng)》領(lǐng)跑，大盤熱度突破6111萬

理想L9車主巧思創(chuàng)業(yè)：車載冰箱固定架半年狂賺130萬！

realme真我售后網(wǎng)點(diǎn)突破500家，八家新店本周大學(xué)城開業(yè)

我國(guó)最大“漁光互補(bǔ)”項(xiàng)目并網(wǎng)！年均發(fā)電量可滿足279萬戶居民需求

華為等15家單位攜手開源：openHiTLS密碼套件引領(lǐng)全場(chǎng)景數(shù)智安全

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

谷歌新推FACTS Grounding基準(zhǔn)，大語(yǔ)言模型能否擺脫“幻覺”困擾？

谷歌新推FACTS Grounding基準(zhǔn)，大語(yǔ)言模型能否擺脫“幻覺”困擾？