【ITBEAR科技資訊】9月21日消息,上海 AI 實驗室與商湯科技、香港中文大學(xué)、復(fù)旦大學(xué)聯(lián)手推出了一款嶄新的中文大模型,號稱"書生?浦語" 20B 版本。這一重要的科技成果宣布了一次巨大的突破,該模型的性能和功能在多個方面都取得了顯著提升。據(jù)了解,這款 20B 版本的模型是基于 2.3T Tokens 的預(yù)訓(xùn)練語料從頭訓(xùn)練的,具有強(qiáng)大的理解、推理、數(shù)學(xué)和編程能力,同時也在文本處理和安全性方面有了巨大的進(jìn)步。
新發(fā)布的書生?浦語 20B 模型引人注目的一點是其卓越性能。盡管參數(shù)量不到 Llama2-70B 的三分之一,但它在性能測試中表現(xiàn)出與相似規(guī)模模型相媲美的水平,實現(xiàn)了多方面的綜合性能提升。模型還支持?jǐn)?shù)十類插件和上萬個 API 功能,具備了代碼解釋和反思修正的能力,這使得它能夠適應(yīng)廣泛的應(yīng)用場景。
與此前的模型相比,書生?浦語 20B 版本在文本處理方面有了顯著改進(jìn)。它能夠有效支持長文理解、長文生成和超長對話,同時還支持高達(dá) 16K 字符的語境長度。這一特性將為處理復(fù)雜的文本任務(wù)提供更大的靈活性和效率。
在安全性方面,研究團(tuán)隊采用了兩階段價值對齊(SFT 和 RLHF)以及專家紅隊的對抗訓(xùn)練,顯著提高了模型的安全性。這一舉措旨在防止不良用途,確保模型在實際應(yīng)用中能夠安全可靠地運行。
最后值得一提的是,書生?浦語 20B 模型的開源工具鏈也經(jīng)過全面升級,包括預(yù)訓(xùn)練框架、低成本微調(diào)框架、部署推理框架、評測框架以及智能體框架,這將有助于開發(fā)者更好地利用和應(yīng)用這一創(chuàng)新技術(shù)。