ITBear旗下自媒體矩陣：

滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

OpenAI推出SimpleQA新基準(zhǔn)，治理AI大模型亂說話現(xiàn)象

時間：2024-10-31 10:48:53 來源：ITBEAR作者：江紫萱編輯：瑞雪 發(fā)表評論無障礙通道

【ITBEAR】OpenAI于近日公布了一項新的基準(zhǔn)測試，名為SimpleQA，旨在評估語言模型在回答簡短事實查詢時的準(zhǔn)確性。這一舉措是應(yīng)對當(dāng)前AI領(lǐng)域中一個突出問題：如何確保模型生成的回答是事實正確的。

SimpleQA數(shù)據(jù)集經(jīng)過精心設(shè)計，不僅具備高正確性，還涵蓋了從科技到娛樂的多樣化主題。其挑戰(zhàn)性在于，即便是前沿的AI模型，如GPT-4o，在SimpleQA上的得分也相對較低，顯示出語言模型在事實準(zhǔn)確性方面仍有待提升。

OpenAI強調(diào)，SimpleQA的簡潔明了使其具有高效的用戶體驗，便于通過API等方式進(jìn)行快速評分。同時，該基準(zhǔn)也注意到其局限性，即主要關(guān)注短查詢的事實準(zhǔn)確性。

盡管存在這一限制，OpenAI仍希望SimpleQA的推出能推動AI研究的進(jìn)一步發(fā)展，助力構(gòu)建更加可信和可靠的AI模型。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

榮耀Magic7系列升級AI鷹眼相機：連拍功能或超華為、蘋果？

值得一提的是，榮耀Magic7系列不僅繼承了備受好評的鷹眼相機，還升級成為AI鷹眼相機，在抓拍模式下支持10fps高質(zhì)量連拍，畫質(zhì)較上一代大幅提升。總而言之，榮耀Magic7系列在影像、性能和AI方面都有很…

10-31

小笨智能打造工業(yè)智能搬運新時代

在智能制造的浪潮中，技術(shù)創(chuàng)新是推動產(chǎn)業(yè)升級的重要引擎。小笨智能，自創(chuàng)立之初，便致力于成為企業(yè)人工智能解決方案領(lǐng)導(dǎo)者。歷經(jīng)9年的技術(shù)深耕與迭代，小笨智能通過自建AI交互平臺，實現(xiàn)高效的人機交互能力;自建底盤算法平臺，打通自研底盤與交互平臺，通過高度成熟的雙

10-31

微軟云業(yè)務(wù)增長放緩，第二季度市場表現(xiàn)如何引關(guān)注！

鞭牛士報道，10月31日消息，據(jù)路透社報道，微軟預(yù)計本季度在人工智能方面的支出將增加，但其云業(yè)務(wù) Azure的增長將放緩，這表明大規(guī)模的人工智能投資不足以跟上其數(shù)據(jù)中心的容量限制。 Facebook 所有者…

10-31

初探新領(lǐng)域，早期項目如何把握先機，引領(lǐng)行業(yè)新風(fēng)潮？

硬氪近期接觸的靈予科技，團(tuán)隊通過接入自研的AI視覺算法體系，推出一款可以自主記錄寵物精彩瞬間與分析異常行為的寵物攝像頭——SiiPet?；趯櫸锛彝ズ褪袌龅挠^察，發(fā)現(xiàn)目前市面上傳統(tǒng)的寵物監(jiān)控在諸如高速追蹤…

10-31

智譜華章聯(lián)手豆神教育，能否領(lǐng)跑教育行業(yè)新賽道？

2024年10月30日，豆神教育在北京舉行豆神辭源大模型“名師超擬人，AI新時代”產(chǎn)品發(fā)布會，推出自主研發(fā)的端模一體教育產(chǎn)品——豆神AI，將客戶端與大語言模型深度結(jié)合。與之類似，智譜華章有優(yōu)秀的大模型開發(fā)及…

10-31

「臨科智華」種子輪融資2300萬，預(yù)計明年營收將達(dá)1.5億！

隨著AI和大數(shù)據(jù)技術(shù)的逐漸成熟，越來越多的傳統(tǒng)行業(yè)開啟智能化轉(zhuǎn)型。臨科智華CEO王旭輝告訴36氪，針對日益龐大的市場需求，臨科智華推出了訓(xùn)推一體機「曦華智驅(qū)AW2000」，其搭載多款自研人工智能大模型和垂…

10-31

谷歌CEO爆料：新谷歌代碼超25%由AI生成，人工智能編程時代已來臨？

2023 年GitHub 的一項調(diào)查發(fā)現(xiàn)，92% 的美國軟件開發(fā)人員已經(jīng)在工作內(nèi)外使用人工智能編碼工具。它使用了 OpenAI的一種特殊編碼人工智能模型Codex ，該模型經(jīng)過訓(xùn)練，既可以建議延續(xù)現(xiàn)有代碼…

10-31

特拉華州總檢察長對OpenAI盈利計劃提出質(zhì)疑，引發(fā)業(yè)界關(guān)注

在信中，司法部長凱瑟琳詹寧斯表示，她寫這封信是為了回應(yīng)有關(guān) OpenAI 正在考慮轉(zhuǎn)變?yōu)闋I利性實體的報道。據(jù) Axios 報道，OpenAI 向投資者承諾，將在未來兩年內(nèi)轉(zhuǎn)變?yōu)闋I利性實體，否則投資者可以收…

10-31

xAI擬募50億美元：估值達(dá)450億，紅杉與卡塔爾等資本巨頭正密談

鞭牛士報道，10月31日消息，據(jù)外電援引知情人士透露，埃隆.馬斯克的人工智能初創(chuàng)公司xAI已討論以約450億美元的估值從投資者那里籌集50億美元。預(yù)計投資者將包括Valor Equity Partners等…

10-31

Meta第三季度凈利潤飆升35%：廣告與AI雙驅(qū)動，業(yè)績亮眼！

Meta 表示，預(yù)計第四季度營收將在 450 億美元至 480 億美元之間。該部門第三季度銷售額同比增長 29% 至 2.7億美元，低于分析師預(yù)期的 3.104 億美元。微軟周三公布其 Azure 云部…

10-31

OpenAI推出SimpleQA新基準(zhǔn)：治理大模型“信口開河”有招了？

10 月 31 日消息，當(dāng)?shù)貢r間 30 日，OpenAI 宣布，為了衡量語言模型的準(zhǔn)確性，將開源一個名為 SimpleQA 的新基準(zhǔn)，可衡量語言模型回答簡短的事實尋求（fact-seeking）問題…

10-31

榮耀Magic7系列相機大升級！AI鷹眼超級連拍，華為蘋果有對手了？

超廣角鏡頭和長焦鏡頭方面，榮耀Magic7全系搭載5000萬像素超廣角，視角122°，支持2.5cm微距攝影；榮耀Magic7長焦鏡頭為5000萬像素，支持3X光學(xué)變焦，50X最大變焦，榮耀Magic7 P…

10-31

每日互動顯實力：數(shù)智綠波國賽摘銀，數(shù)據(jù)驅(qū)動未來，乘數(shù)效應(yīng)值得期待！

10月25日,在國家數(shù)據(jù)局掛牌成立一周年之際,由國家數(shù)據(jù)局牽頭,中央網(wǎng)信辦、交通運輸部、農(nóng)業(yè)農(nóng)村部、商務(wù)部、文化和旅游部、國家衛(wèi)生健康委、應(yīng)急管理部、金融監(jiān)管總局、中國證監(jiān)會、國家醫(yī)保局、中國科學(xué)院、中國氣象…

10-31

產(chǎn)學(xué)研深度融合，值得買科技攜手人大高瓴，AIGC聯(lián)合研究成果驚艷亮相ACM MM盛會！

在ACM MM2024大會的報告中，王希華介紹，TiVA框架為AIGC內(nèi)容生成帶來了新工具，不僅能實現(xiàn)從視頻到音頻的高質(zhì)量生成，速度還加快了約40%，“而且在語義匹配和時間同步的精度上，TiVA還擊敗了當(dāng)前…

10-31

科大訊飛如何斬獲七個“第一”？揭秘行業(yè)領(lǐng)軍者的幕后故事

首先，讓大模型“頂天立地”，即底座和云邊端軟硬一體化做到領(lǐng)先，這決定大模型在AGI時代能走多遠(yuǎn)；同時，大模型將改變信息獲取、內(nèi)容生產(chǎn)模式、產(chǎn)業(yè)競爭格局、科研范式，這意味著訊飛要把大模型科學(xué)合理地在剛需場景中落…

10-31

點擊查看更多 +

全站最新

新款Mac mini預(yù)售開啟：16GB內(nèi)存起，4499元！蘋果迷你電腦再掀風(fēng)潮？

蘋果新款筆記本強勢登場！續(xù)航驚艷，性能巔峰，你心動了嗎？

解謎控的福音來了！《Inkesis》冒險游戲，你準(zhǔn)備好挑戰(zhàn)未知了嗎？

《Garden Trills》登陸Steam：小麻雀來襲，治愈系新游戲上線！

Xbox Game Pass費用上漲，玩家紛紛選擇退訂，游戲訂閱市場何去何從？

育碧轉(zhuǎn)型之路：成本削減策略初顯成效，未來可期！

熱門內(nèi)容

本欄最新

OpenAI推出SimpleQA新基準(zhǔn)，治理AI大模型亂說話現(xiàn)象

榮耀Magic7系列升級AI鷹眼相機：連拍功能或超華為、蘋果？

小笨智能打造工業(yè)智能搬運新時代

微軟云業(yè)務(wù)增長放緩，第二季度市場表現(xiàn)如何引關(guān)注！

智譜華章聯(lián)手豆神教育，能否領(lǐng)跑教育行業(yè)新賽道？

OpenAI推出SimpleQA新基準(zhǔn)：治理大模型“信口開河”有招了？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.