【ITBEAR科技資訊】5月18日消息,加拿大科學(xué)家最新的研究成果顯示,基于GPT-3.5的ChatGPT,一款由OpenAI開發(fā)的人工智能聊天機(jī)器人程序,在美國放射學(xué)委員會考試中取得了令人滿意的成績。
據(jù)ITBEAR科技資訊了解,為了評估ChatGPT在美國放射學(xué)委員會考試問題上的表現(xiàn),并探索其在這一領(lǐng)域的優(yōu)勢和局限性,多倫多大學(xué)的研究人員進(jìn)行了一系列測試。他們使用了150道與加拿大皇家學(xué)院和美國放射學(xué)委員會考試風(fēng)格、內(nèi)容和難度相當(dāng)?shù)倪x擇題。
研究結(jié)果顯示,基于GPT-3.5的ChatGPT在這些考試題目中的正確率達(dá)到了69%,接近了70%的及格線。在回答低階思維問題時,該模型表現(xiàn)相對較好,正確率達(dá)到了84%。然而,當(dāng)面對高級思維問題時,它的正確率僅為60%。
與此同時,研究團(tuán)隊(duì)還測試了性能更為出色的GPT-4模型。結(jié)果顯示,GPT-4在整個考試中的正確率達(dá)到了81%,在高階思維問題上的正確率也為81%。值得注意的是,盡管GPT-4在低階思維問題上的正確率為80%,但與GPT-3.5相比,它錯答了12道題,引發(fā)了研究團(tuán)隊(duì)對GPT-4收集信息可靠性的擔(dān)憂。
這項(xiàng)研究的結(jié)果表明,ChatGPT作為一款基于GPT-3.5的聊天機(jī)器人程序,能夠在放射學(xué)領(lǐng)域的考試中取得一定的成績。然而,隨著模型升級到GPT-4,它在高級思維問題上的表現(xiàn)有了顯著的提升,但在低階思維問題上的準(zhǔn)確性有所下降。研究團(tuán)隊(duì)對GPT-4的信息收集可靠性提出了一些擔(dān)憂,這可能需要進(jìn)一步的研究和改進(jìn)。
總的來說,ChatGPT的發(fā)展和應(yīng)用將為人工智能領(lǐng)域帶來新的可能性,但在特定領(lǐng)域的表現(xiàn)仍然需要進(jìn)一步的改進(jìn)和優(yōu)化。