滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

百川智能Omni-1.5全模態(tài)模型上線，能力全面超越GPT-4o mini？

時(shí)間：2025-01-26 15:44:28 來源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

百川智能近日正式揭曉了其最新研發(fā)成果——Baichuan-Omni-1.5開源全模態(tài)模型，這一創(chuàng)新模型現(xiàn)已正式上線。Baichuan-Omni-1.5不僅精通文本、圖像、音頻和視頻的全模態(tài)理解，還獨(dú)具文本與音頻的雙模態(tài)生成能力，展現(xiàn)了強(qiáng)大的多模態(tài)處理能力。

據(jù)官方宣稱，Baichuan-Omni-1.5在視覺、語音及多模態(tài)流式處理等多個(gè)領(lǐng)域，其性能均超越了GPT-4o mini。特別是在多模態(tài)醫(yī)療應(yīng)用領(lǐng)域，該模型更是展現(xiàn)出顯著的領(lǐng)先優(yōu)勢(shì)，為醫(yī)療智能化發(fā)展開辟了新路徑。

該模型在交互操作上也實(shí)現(xiàn)了重大突破，支持輸入與輸出端的多樣化交互，同時(shí)擁有卓越的多模態(tài)推理能力和跨模態(tài)遷移能力。這一特性使得Baichuan-Omni-1.5能夠靈活應(yīng)對(duì)各種復(fù)雜場(chǎng)景，實(shí)現(xiàn)高效的信息處理與轉(zhuǎn)換。

在音頻技術(shù)領(lǐng)域，Baichuan-Omni-1.5采用了先進(jìn)的端到端解決方案，支持多語言對(duì)話、端到端音頻合成，以及自動(dòng)語音識(shí)別、文本轉(zhuǎn)語音等功能。該模型還支持音視頻實(shí)時(shí)交互，為用戶提供了更加流暢、自然的交互體驗(yàn)。

在視頻理解能力方面，Baichuan-Omni-1.5通過對(duì)編碼器、訓(xùn)練數(shù)據(jù)和訓(xùn)練方法等多個(gè)關(guān)鍵環(huán)節(jié)的深度優(yōu)化，實(shí)現(xiàn)了整體性能的顯著提升，遠(yuǎn)遠(yuǎn)超越了GPT-4o mini。這一突破性的進(jìn)展使得Baichuan-Omni-1.5在視頻處理領(lǐng)域具有更強(qiáng)的競(jìng)爭(zhēng)力和應(yīng)用前景。

在模型結(jié)構(gòu)上，Baichuan-Omni-1.5的設(shè)計(jì)同樣獨(dú)具匠心。其輸入部分支持各種模態(tài)數(shù)據(jù)通過相應(yīng)的Encoder/Tokenizer輸入到大型語言模型中，實(shí)現(xiàn)了數(shù)據(jù)的多樣化處理。而在輸出部分，該模型則采用了文本-音頻交錯(cuò)輸出的設(shè)計(jì)，通過Text Tokenizer和Audio Decoder同時(shí)生成文本和音頻，實(shí)現(xiàn)了信息的多維度輸出。

為了構(gòu)建這一強(qiáng)大的模型，百川智能投入了大量資源，構(gòu)建了一個(gè)包含3.4億條高質(zhì)量圖片/視頻-文本數(shù)據(jù)和近100萬小時(shí)音頻數(shù)據(jù)的龐大數(shù)據(jù)庫。在SFT階段，更是使用了1700萬條全模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練，確保了模型的準(zhǔn)確性和可靠性。

對(duì)于廣大開發(fā)者而言，Baichuan-Omni-1.5的開源無疑是一個(gè)重大利好。現(xiàn)在，開發(fā)者可以通過以下鏈接獲取模型權(quán)重和技術(shù)報(bào)告，深入了解并應(yīng)用這一創(chuàng)新模型：

GitHub鏈接：https://github.com/baichuan-inc/Baichuan-Omni-1.5

模型權(quán)重鏈接：

Baichuan-Omni-1.5：https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5 https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5

Baichuan-Omni-1.5-Base：https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

技術(shù)報(bào)告鏈接：https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

01-26

春節(jié)“輕斷親”，年輕人為何選擇回鄉(xiāng)卻不住家？

夏冰從小就不喜歡過年，在她的概念里，團(tuán)圓的意義是她和爸爸媽媽在一起，但反之每年都會(huì)有接近陌生人的親戚來到自己家里，說些夾槍帶棒的話，做些沒有邊界感的事。在外地工作以后，她期待回家，但又對(duì)很多親戚避而不及，…

01-26

新款謝爾比GT350/GT350R震撼登場(chǎng)，V8機(jī)增830馬力極限性能

01-26

張大大被曝職場(chǎng)霸凌，錄音實(shí)錘，這回真完了？

01-26

快手京東攜手春節(jié)營銷大捷，迎頭彩活動(dòng)曝光超20億！

01-26

跨境電商支付破局，如何鑄就全球化穩(wěn)健航程？

01-26

字節(jié)跳動(dòng)2025年春節(jié)紅包成絕響，離職員工同樣獲贈(zèng)

三言科技 1月26日消息，1月24日，字節(jié)跳動(dòng)發(fā)布內(nèi)部郵件，稱將于2026年起停發(fā)春節(jié)紅包。值得注意的是，雖然是最后一次春節(jié)紅包，但和往年一樣，字節(jié)跳動(dòng)離職員工也能收到。有已從字節(jié)跳動(dòng)離職的網(wǎng)友在社交平臺(tái)…

01-26

GAMDIAS新推ATLAS P2 CG機(jī)箱：彎玻全景，數(shù)顯面板聚I/O

01-26

微軟Office更名“Microsoft 365 Copilot”，用戶困惑與不滿并存？

01-26

NASA發(fā)射火箭穿越極光，揭秘北極光閃爍脈動(dòng)之謎

01-26

美團(tuán)十五周年慶典，全員紅包大放送，正式員工喜提588元！

01-26

系外行星WASP-127b現(xiàn)超音速風(fēng)，最快風(fēng)速達(dá)每小時(shí)3.3萬公里！

01-26

系外行星WASP-127b驚現(xiàn)超音速風(fēng)，速度竟達(dá)每小時(shí)3.3萬公里！

01-26

批發(fā)零售雙輪驅(qū)動(dòng)，我國網(wǎng)絡(luò)零售市場(chǎng)十二年領(lǐng)跑全球

01-26

太空微重力，如何悄悄改變宇航員的眼睛？

01-26

點(diǎn)擊查看更多 +

全站最新

2025新能源車市大戰(zhàn)在即，“蔚小理華米”誰將領(lǐng)跑新勢(shì)力格局？

張大大被曝職場(chǎng)霸凌，錄音實(shí)錘，這回真完了？

小熊電器：全場(chǎng)景生活下的品質(zhì)之選，滿足了多少生活想象？

快手京東攜手春節(jié)營銷大捷，迎頭彩活動(dòng)曝光超20億！

火山引擎車魚視聽攜手汽水音樂，蔚來車端首發(fā)，升級(jí)車載音樂新體驗(yàn)

跨境電商支付破局，如何鑄就全球化穩(wěn)健航程？

熱門內(nèi)容

本欄最新

新款謝爾比GT350/GT350R震撼登場(chǎng)，V8機(jī)增830馬力極限性能

張大大被曝職場(chǎng)霸凌，錄音實(shí)錘，這回真完了？

快手京東攜手春節(jié)營銷大捷，迎頭彩活動(dòng)曝光超20億！

跨境電商支付破局，如何鑄就全球化穩(wěn)健航程？

字節(jié)跳動(dòng)2025年春節(jié)紅包成絕響，離職員工同樣獲贈(zèng)

GAMDIAS新推ATLAS P2 CG機(jī)箱：彎玻全景，數(shù)顯面板聚I/O

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

百川智能Omni-1.5全模態(tài)模型上線，能力全面超越GPT-4o mini？

百川智能Omni-1.5全模態(tài)模型上線，能力全面超越GPT-4o mini？