ITBear旗下自媒體矩陣:

谷歌新推FACTS Grounding基準(zhǔn),大語(yǔ)言模型能否擺脫“幻覺”困擾?

   時(shí)間:2024-12-18 14:08:05 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

近日,谷歌DeepMind團(tuán)隊(duì)發(fā)布了一項(xiàng)名為FACTS Grounding的全新基準(zhǔn)測(cè)試,旨在提升大型語(yǔ)言模型(LLMs)的事實(shí)準(zhǔn)確性,增強(qiáng)用戶的信任感,并拓寬其應(yīng)用邊界。該測(cè)試的核心在于評(píng)估LLMs能否根據(jù)給定材料準(zhǔn)確作答,同時(shí)避免產(chǎn)生“幻覺”,即不捏造信息。

在數(shù)據(jù)集層面,F(xiàn)ACTS Grounding數(shù)據(jù)集精心編制了1719個(gè)涵蓋金融、科技、零售、醫(yī)療和法律等多個(gè)領(lǐng)域的示例。每個(gè)示例均包含一篇文檔、一條要求LLM基于文檔的系統(tǒng)指令以及相應(yīng)的提示詞。這些文檔的長(zhǎng)度各異,最長(zhǎng)的文檔包含約20000字的內(nèi)容,確保了數(shù)據(jù)集的豐富性和多樣性。用戶請(qǐng)求的類型多樣,包括摘要、問答生成和改寫等,但不涉及需要?jiǎng)?chuàng)造力、數(shù)學(xué)或復(fù)雜推理的任務(wù)。

數(shù)據(jù)集被巧妙地分為860個(gè)“公共”示例和859個(gè)“私有”示例。目前,公共數(shù)據(jù)集已公開發(fā)布,供研究人員和開發(fā)者進(jìn)行評(píng)估使用。而私有數(shù)據(jù)集則用于排行榜評(píng)分,這一設(shè)計(jì)旨在防止基準(zhǔn)污染和排行榜作弊,確保評(píng)估的公正性和準(zhǔn)確性。

在評(píng)估方案上,F(xiàn)ACTS Grounding基準(zhǔn)測(cè)試采用了Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet三款先進(jìn)的模型作為評(píng)委,它們將共同評(píng)估答案的充分性、事實(shí)準(zhǔn)確性和文檔支持性。這一多模型評(píng)估體系能夠更全面、客觀地反映LLMs在事實(shí)準(zhǔn)確性方面的表現(xiàn)。

評(píng)估過程分為兩個(gè)階段。首先,評(píng)委們會(huì)判斷響應(yīng)是否符合資格,即是否充分回答了用戶請(qǐng)求。接著,他們會(huì)評(píng)估響應(yīng)的事實(shí)準(zhǔn)確性,即是否完全基于所提供的文檔,沒有產(chǎn)生“幻覺”。最終,基于模型在所有示例上的平均得分,計(jì)算出每個(gè)LLM在FACTS Grounding基準(zhǔn)測(cè)試中的表現(xiàn)。

值得注意的是,在FACTS Grounding基準(zhǔn)測(cè)試中,谷歌自家的Gemini模型在事實(shí)準(zhǔn)確的文本生成方面脫穎而出,取得了最高分。這一成績(jī)不僅展示了Gemini模型在事實(shí)準(zhǔn)確性方面的卓越表現(xiàn),也驗(yàn)證了FACTS Grounding基準(zhǔn)測(cè)試的有效性和可靠性。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version