OpenAI近日突如其來地宣布了一項重大更新,通過一場緊急安排的小型發(fā)布會,向全球展示了其最新研發(fā)成果——Deep Research功能。這一功能在發(fā)布會前4小時方才通知,而直播活動則于晚上8點準(zhǔn)時開啟,引起了業(yè)界的廣泛關(guān)注。
Deep Research被設(shè)計為能夠執(zhí)行復(fù)雜研究任務(wù),據(jù)OpenAI介紹,它能夠在短短數(shù)十分鐘內(nèi)完成人類專家通常需要數(shù)小時才能完成的工作。這一功能在“人類最后的考試”中表現(xiàn)出色,刷新了最高分記錄,其推理設(shè)置分?jǐn)?shù)甚至高出之前的o3-mini一倍之多。該測試涵蓋了從語言學(xué)到生態(tài)學(xué)等100多個主題,包括3000多個多選和簡答題。
在另一項名為GAIA的現(xiàn)實世界問題評估基準(zhǔn)測試中,Deep Research同樣表現(xiàn)卓越,刷新了三個難度級別的記錄。不過,出于保護基準(zhǔn)測試的目的,OpenAI僅展示了Deep Research在完成任務(wù)時的搜索過程,而隱去了最終答案。
Deep Research功能將首先對OpenAI的Pro、Plus和Team用戶開放。據(jù)透露,目前版本基于o3構(gòu)建,Plus用戶(每月20美元)每月可使用約10次該功能,同時OpenAI正在構(gòu)建一個更高效的版本。免費用戶也將獲得極為有限的使用額度。
Deep Research專為金融、科學(xué)、工程等領(lǐng)域的高強度知識工作者設(shè)計,他們需要深入、精確且可靠的研究。該功能由OpenAI o3驅(qū)動,通過基于真實任務(wù)(涉及瀏覽器和Python工具的使用)的訓(xùn)練,采用了與o1相同的強化學(xué)習(xí)方法。用戶只需給出一個提示,Deep Research便會查找、分析并整合數(shù)百個在線資源,生成一份達(dá)到研究分析師水平的綜合報告。
OpenAI表示,Deep Research標(biāo)志著他們在開發(fā)通用人工智能(AGI)的宏偉目標(biāo)上邁出了重要一步。他們長期以來一直設(shè)想AGI能夠進行新穎的科學(xué)研究,而Deep Research正是這一愿景的重要進展。
OpenAI還透露,接下來幾周內(nèi),他們將為這些報告添加嵌入式圖片、數(shù)據(jù)可視化和其它分析輸出。與GPT-4o等相比,Deep Research能夠針對需要深度和細(xì)節(jié)的多方面、特定領(lǐng)域問題進行廣泛探索,并引用每個觀點。
然而,OpenAI也指出了Deep Research存在的局限性。有時,它可能會在回復(fù)中產(chǎn)生事實幻覺或做出錯誤的推斷,盡管根據(jù)內(nèi)部評估,其錯誤率明顯低于現(xiàn)有的ChatGPT模型。它在區(qū)分權(quán)威信息和謠言方面可能遇到困難,并且在自信度校準(zhǔn)方面目前表現(xiàn)出弱點,常常無法準(zhǔn)確傳達(dá)不確定性。報告和引用中可能會有輕微的格式錯誤,并且啟動任務(wù)可能需要更長的時間。
OpenAI計劃在本月內(nèi)將Deep Research功能推送到移動和桌面App端。目前,Deep Research可以訪問公開網(wǎng)絡(luò)和上傳的文件,未來將能夠連接到更多專業(yè)化的數(shù)據(jù)源,使其輸出更加穩(wěn)健和個性化。他們預(yù)見ChatGPT將實現(xiàn)Agent體驗的融合,用于異步、現(xiàn)實世界的研發(fā)和執(zhí)行。Deep Research(可進行異步在線調(diào)查)與Operator(可進行現(xiàn)實行動)的結(jié)合,將使ChatGPT能夠執(zhí)行越來越復(fù)雜的任務(wù)。
OpenAI研究員Jason Wei分享了他對這項新研究的看法。他認(rèn)為,Deep Research不僅是出色的Agent,也可以看成是互聯(lián)網(wǎng)的新界面。人類使用互聯(lián)網(wǎng)需要大量時間來搜索和點擊,受到時間和注意力的限制。而AI永遠(yuǎn)不會累,一次可以瀏覽許多網(wǎng)站,并擁有幾乎無限的世界知識。他預(yù)測,將來通過瀏覽器手動瀏覽互聯(lián)網(wǎng)將過時,就像手動計算數(shù)字而不使用計算器一樣。
OpenAI toG業(yè)務(wù)負(fù)責(zé)人Felipe Millon則分享了一個個人故事。他的妻子被診斷出患有雙側(cè)乳腺癌,在是否應(yīng)該接受放療的問題上遇到了困惑。不同的專家給出了不同的建議。Millon利用自己在OpenAI獲得的Deep Research測試權(quán)限,上傳了手術(shù)報告并詢問ChatGPT的建議。ChatGPT不僅證實了人類專家提到的內(nèi)容,還搜索出了全新的參考研究。Millon認(rèn)為,這是一個將改變世界的工具。
也有少數(shù)第三方團隊提前獲得了Deep Research的測試資格,并在發(fā)布會上分享了測試結(jié)果。Every團隊介紹稱,一些問題需要花費30分鐘才能得到結(jié)果,答案可能超過1萬個單詞。他們所做的測試包括撰寫從2020年至今每天的歷史、分析《戰(zhàn)爭與和平》中托爾斯泰的人物描寫、仔細(xì)查閱近期的財務(wù)報告以發(fā)現(xiàn)違規(guī)行為等。