百川智能近日正式揭曉了其最新研發(fā)成果——Baichuan-Omni-1.5開源全模態(tài)模型,這一創(chuàng)新模型現(xiàn)已正式上線。Baichuan-Omni-1.5不僅精通文本、圖像、音頻和視頻的全模態(tài)理解,還獨(dú)具文本與音頻的雙模態(tài)生成能力,展現(xiàn)了強(qiáng)大的多模態(tài)處理能力。
據(jù)官方宣稱,Baichuan-Omni-1.5在視覺、語音及多模態(tài)流式處理等多個(gè)領(lǐng)域,其性能均超越了GPT-4o mini。特別是在多模態(tài)醫(yī)療應(yīng)用領(lǐng)域,該模型更是展現(xiàn)出顯著的領(lǐng)先優(yōu)勢(shì),為醫(yī)療智能化發(fā)展開辟了新路徑。
該模型在交互操作上也實(shí)現(xiàn)了重大突破,支持輸入與輸出端的多樣化交互,同時(shí)擁有卓越的多模態(tài)推理能力和跨模態(tài)遷移能力。這一特性使得Baichuan-Omni-1.5能夠靈活應(yīng)對(duì)各種復(fù)雜場(chǎng)景,實(shí)現(xiàn)高效的信息處理與轉(zhuǎn)換。
在音頻技術(shù)領(lǐng)域,Baichuan-Omni-1.5采用了先進(jìn)的端到端解決方案,支持多語言對(duì)話、端到端音頻合成,以及自動(dòng)語音識(shí)別、文本轉(zhuǎn)語音等功能。該模型還支持音視頻實(shí)時(shí)交互,為用戶提供了更加流暢、自然的交互體驗(yàn)。
在視頻理解能力方面,Baichuan-Omni-1.5通過對(duì)編碼器、訓(xùn)練數(shù)據(jù)和訓(xùn)練方法等多個(gè)關(guān)鍵環(huán)節(jié)的深度優(yōu)化,實(shí)現(xiàn)了整體性能的顯著提升,遠(yuǎn)遠(yuǎn)超越了GPT-4o mini。這一突破性的進(jìn)展使得Baichuan-Omni-1.5在視頻處理領(lǐng)域具有更強(qiáng)的競(jìng)爭(zhēng)力和應(yīng)用前景。
在模型結(jié)構(gòu)上,Baichuan-Omni-1.5的設(shè)計(jì)同樣獨(dú)具匠心。其輸入部分支持各種模態(tài)數(shù)據(jù)通過相應(yīng)的Encoder/Tokenizer輸入到大型語言模型中,實(shí)現(xiàn)了數(shù)據(jù)的多樣化處理。而在輸出部分,該模型則采用了文本-音頻交錯(cuò)輸出的設(shè)計(jì),通過Text Tokenizer和Audio Decoder同時(shí)生成文本和音頻,實(shí)現(xiàn)了信息的多維度輸出。
為了構(gòu)建這一強(qiáng)大的模型,百川智能投入了大量資源,構(gòu)建了一個(gè)包含3.4億條高質(zhì)量圖片/視頻-文本數(shù)據(jù)和近100萬小時(shí)音頻數(shù)據(jù)的龐大數(shù)據(jù)庫。在SFT階段,更是使用了1700萬條全模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,確保了模型的準(zhǔn)確性和可靠性。
對(duì)于廣大開發(fā)者而言,Baichuan-Omni-1.5的開源無疑是一個(gè)重大利好。現(xiàn)在,開發(fā)者可以通過以下鏈接獲取模型權(quán)重和技術(shù)報(bào)告,深入了解并應(yīng)用這一創(chuàng)新模型:
GitHub鏈接:https://github.com/baichuan-inc/Baichuan-Omni-1.5
模型權(quán)重鏈接:
Baichuan-Omni-1.5:https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5 https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5
Baichuan-Omni-1.5-Base:https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base
技術(shù)報(bào)告鏈接:https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf