在近日舉辦的火山引擎Force大會(huì)上,字節(jié)跳動(dòng)公司正式揭曉了其最新的技術(shù)創(chuàng)新——豆包視覺理解模型。這一多模態(tài)大模型旨在為企業(yè)提供高性價(jià)比的視覺理解解決方案,其價(jià)格優(yōu)勢(shì)尤為顯著,據(jù)稱,處理千個(gè)tokens的成本僅為3厘,而處理284張720P圖片的費(fèi)用更是低至1元,這一價(jià)格相較于行業(yè)平均水平低了85%。
火山引擎總裁譚待在會(huì)上詳細(xì)介紹了豆包視覺理解模型的獨(dú)特之處。他指出,該模型不僅能夠精確識(shí)別圖像內(nèi)容,還具備強(qiáng)大的理解和推理能力,可以執(zhí)行復(fù)雜的邏輯計(jì)算任務(wù),例如分析圖表、處理代碼以及解答學(xué)科問(wèn)題。豆包模型在視覺描述和創(chuàng)作方面同樣表現(xiàn)出色。
在豆包大模型系列產(chǎn)品的更新方面,同樣傳來(lái)了好消息。豆包通用模型pro已經(jīng)實(shí)現(xiàn)了與GPT-4o的全面對(duì)齊,但其使用價(jià)格僅為后者的八分之一。音樂模型則從原先的生成60秒簡(jiǎn)單結(jié)構(gòu)升級(jí)為了能夠生成3分鐘的完整音樂作品。而文生圖模型2.1版本更是實(shí)現(xiàn)了業(yè)界首次的精準(zhǔn)生成漢字和一句話P圖的產(chǎn)品化能力,這一版本已經(jīng)成功接入了即夢(mèng)AI和豆包App。
火山引擎大會(huì)還透露,豆包視頻生成模型1.5版將在2025年春季推出,新版本將具備更強(qiáng)的長(zhǎng)視頻生成能力。同時(shí),豆包端到端實(shí)時(shí)語(yǔ)音模型也將很快上線,屆時(shí)將解鎖多角色演繹、方言轉(zhuǎn)換等一系列新功能。譚待表示,盡管豆包大模型發(fā)布時(shí)間相對(duì)較晚,但其在短時(shí)間內(nèi)實(shí)現(xiàn)了快速的迭代和進(jìn)化,目前已經(jīng)成為國(guó)內(nèi)技術(shù)最全面、最領(lǐng)先的大模型之一。
從數(shù)據(jù)上看,豆包通用模型的市場(chǎng)表現(xiàn)同樣亮眼。截至12月中旬,其日均tokens使用量已經(jīng)超過(guò)了4萬(wàn)億,相較于七個(gè)月前首次發(fā)布時(shí)增長(zhǎng)了33倍。這一數(shù)據(jù)表明,大模型應(yīng)用正在加速滲透到各行各業(yè),成為推動(dòng)數(shù)字化轉(zhuǎn)型的重要力量。
豆包大模型在智能終端領(lǐng)域的表現(xiàn)也頗為搶眼。目前,該模型已經(jīng)與八成主流汽車品牌建立了合作關(guān)系,并成功接入了多家手機(jī)、PC等智能終端,覆蓋終端設(shè)備數(shù)量約3億臺(tái)。在半年時(shí)間內(nèi),來(lái)自智能終端的豆包大模型調(diào)用量實(shí)現(xiàn)了100倍的增長(zhǎng)。