ITBear旗下自媒體矩陣:

OpenAI推出SimpleQA新基準(zhǔn):治理大模型“信口開河”有招了?

   時(shí)間:2024-10-31 08:11:50 來源:ITBEAR作者:趙云飛編輯:瑞雪 發(fā)表評(píng)論無障礙通道

【ITBEAR】OpenAI于近日推出了一項(xiàng)名為SimpleQA的新基準(zhǔn),旨在評(píng)估語言模型在回答簡短事實(shí)尋求問題時(shí)的準(zhǔn)確性。這一舉措是AI領(lǐng)域追求更高事實(shí)正確性的重要一步。

據(jù)悉,SimpleQA通過一系列嚴(yán)格的標(biāo)準(zhǔn)來確保評(píng)估的公正性和有效性。其中包括高正確性,即參考答案需經(jīng)兩名獨(dú)立AI訓(xùn)練師驗(yàn)證;多樣性,涵蓋從科學(xué)技術(shù)到娛樂等多個(gè)主題;以及前沿挑戰(zhàn)性,相比早期的基準(zhǔn),SimpleQA更能測試出前沿模型的實(shí)力。

SimpleQA還注重高效用戶體驗(yàn),問題與答案設(shè)計(jì)得簡潔明了,便于快速操作和評(píng)分。通過OpenAI API等工具,用戶可以輕松地進(jìn)行模型評(píng)估。

OpenAI表示,盡管SimpleQA在短查詢的受限設(shè)置中測量事實(shí)準(zhǔn)確性,但其希望這一基準(zhǔn)的開源能夠推動(dòng)AI研究在更廣泛領(lǐng)域的應(yīng)用和發(fā)展。同時(shí),SimpleQA也揭示了當(dāng)前語言模型在生成事實(shí)正確回答方面仍面臨的挑戰(zhàn),即如何減少錯(cuò)誤輸出和未經(jīng)證實(shí)的答案,這一問題也被稱為“幻覺”。

通過SimpleQA的推出,OpenAI期望能夠進(jìn)一步促進(jìn)語言模型的優(yōu)化和完善,使其在更多場景中發(fā)揮出更大的價(jià)值。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version