【ITBEAR科技資訊】5月29日消息,開源語言模型的發(fā)展取得了令人矚目的進(jìn)步。然而,對于這些開源模型是否能夠與來自O(shè)penAI、谷歌和其他公司的經(jīng)過精心訓(xùn)練的語言模型競爭,存在一些爭議。
據(jù)先前報(bào)道,使用Alpaca Formula訓(xùn)練的開源語言模型幾乎不需要耗費(fèi)大量時(shí)間和資源,就能夠達(dá)到類似于ChatGPT的水平。Alpaca Formula是指開發(fā)者利用ChatGPT生成的訓(xùn)練數(shù)據(jù)來微調(diào)meta語言模型LLaMA。通過使用這些數(shù)據(jù),LLaMA模型能夠在短時(shí)間內(nèi)學(xué)習(xí)生成與ChatGPT相似的輸出,且所需計(jì)算資源較少。
然而,最近伯克利大學(xué)的研究人員對此進(jìn)行了不同的研究。他們使用Alpaca Formula對LLaMA和GPT-2的一些基礎(chǔ)模型進(jìn)行了實(shí)驗(yàn),并請人工評估這些結(jié)果,同時(shí)還使用GPT-4進(jìn)行自動評估。
初步結(jié)果與之前的開發(fā)者所得出的結(jié)論相似:改進(jìn)過的模仿模型在展示模仿數(shù)據(jù)的任務(wù)中的性能遠(yuǎn)超基礎(chǔ)模型,與ChatGPT相當(dāng)。
然而,更加有針對性的自動評估顯示,這些模仿模型實(shí)際上只在已見過的模仿數(shù)據(jù)的任務(wù)中表現(xiàn)良好。在其他領(lǐng)域中,與GPT-4相比,仍然存在明顯的性能差距。這是因?yàn)檫@些基礎(chǔ)模型在廣泛的預(yù)訓(xùn)練過程中獲取了大部分功能,而非微調(diào)階段所獲得的。
研究人員指出,進(jìn)行這種評估的工作者常常在短時(shí)間內(nèi)對人工智能內(nèi)容進(jìn)行評估,而缺乏相關(guān)專業(yè)知識,容易被誤導(dǎo)。
值得注意的是,OpenAI的研究員約翰舒爾曼最近批評了使用ChatGPT數(shù)據(jù)來微調(diào)開源基礎(chǔ)語言模型的做法。他指出,如果微調(diào)數(shù)據(jù)集中包含了原始模型中未包含的知識,那么這些模型可能會產(chǎn)生更多不準(zhǔn)確的內(nèi)容。
綜上所述,雖然開源語言模型的進(jìn)步不容忽視,但在與OpenAI、谷歌和其他公司訓(xùn)練有素的語言模型進(jìn)行競爭時(shí),仍然存在一定的差距。對于開源模型的評估需要更加準(zhǔn)確和全面,以充分了解其性能和局限性。