近期,一項(xiàng)由哈佛醫(yī)學(xué)院攜手斯坦福大學(xué)開展的醫(yī)學(xué)研究揭示了人工智能在醫(yī)療診斷領(lǐng)域的潛力。研究顯示,OpenAI的o1-preview模型在應(yīng)對(duì)復(fù)雜醫(yī)療案例時(shí),其診斷能力超越了人類醫(yī)生。
研究報(bào)告詳細(xì)指出,o1-preview模型在測試案例中實(shí)現(xiàn)了78.3%的正確診斷率。特別是在70個(gè)特定案例的對(duì)比中,該模型的準(zhǔn)確率飆升至88.6%,這一成績明顯優(yōu)于其前身GPT-4的72.9%準(zhǔn)確率。這一發(fā)現(xiàn)標(biāo)志著AI在醫(yī)療診斷領(lǐng)域取得了顯著進(jìn)步。
進(jìn)一步的研究采用醫(yī)學(xué)推理質(zhì)量評(píng)估標(biāo)準(zhǔn)量表R-IDEA進(jìn)行衡量,結(jié)果顯示o1-preview在80個(gè)測試案例中取得了78個(gè)滿分。相比之下,經(jīng)驗(yàn)豐富的醫(yī)生僅在28個(gè)案例中獲得滿分,而住院醫(yī)生更是僅在16個(gè)案例中獲得滿分。這一對(duì)比凸顯了o1-preview在醫(yī)學(xué)推理方面的卓越表現(xiàn)。
在由25位醫(yī)學(xué)專家設(shè)計(jì)的復(fù)雜案例中,o1-preview的得分高達(dá)86%。這一成績是使用GPT-4的醫(yī)生(41%得分)和使用傳統(tǒng)診斷工具的醫(yī)生(34%得分)的兩倍多。這一發(fā)現(xiàn)進(jìn)一步證明了o1-preview在處理復(fù)雜醫(yī)療問題時(shí)的優(yōu)勢(shì)。
然而,研究人員也指出了研究的局限性。部分測試案例可能包含在o1-preview的訓(xùn)練數(shù)據(jù)中,這可能對(duì)結(jié)果產(chǎn)生一定影響。研究主要關(guān)注模型單獨(dú)工作的情況,未充分考慮其與人類醫(yī)生協(xié)同工作的場景。同時(shí),o1-preview建議的診斷測試成本高昂,在實(shí)際應(yīng)用中可能面臨一定的局限性。