近日,字節(jié)跳動在其火山引擎Force大會上,正式揭曉了一項新的技術(shù)成果——豆包視覺理解模型。這一多模態(tài)大模型能力,旨在為企業(yè)提供高效且經(jīng)濟(jì)的視覺處理方案。據(jù)悉,豆包視覺理解模型在處理大量數(shù)據(jù)時展現(xiàn)出了顯著的成本優(yōu)勢,其千tokens輸入價格僅為3厘,換算下來,每處理一張720P的圖片成本不到4分錢,相較于行業(yè)平均水平,價格降低了85%。
在大會現(xiàn)場,字節(jié)跳動還展示了豆包3D生成模型。這款模型與火山引擎的數(shù)字孿生平臺veOmniverse協(xié)同工作,能夠完成從智能訓(xùn)練到數(shù)據(jù)合成,再到數(shù)字資產(chǎn)制作的完整流程。這一組合被字節(jié)跳動譽(yù)為“AIGC創(chuàng)作的物理世界仿真模擬器”,預(yù)示著在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域的一次重要革新。
不僅如此,豆包大模型旗下的多款產(chǎn)品也在此次大會上迎來了更新。其中,豆包通用模型pro全面升級,其功能與GPT-4o不相上下,但使用價格僅為后者的八分之一。音樂模型則新增了生成3分鐘完整音樂作品的能力,為音樂創(chuàng)作提供了更多可能性。文生圖模型也升級到了2.1版本,能夠更精準(zhǔn)地生成漢字,并實現(xiàn)了一句話P圖的功能,目前這一功能已經(jīng)接入了即夢AI和豆包App。
據(jù)字節(jié)跳動透露,豆包視頻生成模型也將在明年春季迎來1.5版本的更新,新版本將具備更強(qiáng)的長視頻生成能力。同時,豆包端到端實時語音模型也即將上線,這一模型將解鎖多角色演繹、方言轉(zhuǎn)換等全新功能,為語音處理領(lǐng)域帶來更多的可能性。
字節(jié)跳動的這一系列動作,無疑展示了其在人工智能領(lǐng)域的深厚積累和持續(xù)創(chuàng)新的能力。隨著豆包大模型及其旗下產(chǎn)品的不斷更新和完善,我們有理由相信,字節(jié)跳動將在未來為更多企業(yè)和個人提供更加智能、高效、經(jīng)濟(jì)的解決方案。