字節(jié)跳動在近日于其火山引擎Force大會上揭曉了一項重要技術(shù)成果——豆包視覺理解模型。這款模型為企業(yè)提供了一種極具成本效益的多模態(tài)大模型解決方案,標(biāo)志著AI技術(shù)在商業(yè)應(yīng)用領(lǐng)域的又一重大突破。
據(jù)悉,豆包視覺理解模型以其低廉的價格吸引了廣泛關(guān)注。具體而言,處理一千個tokens的費(fèi)用僅為三厘,這意味著一元人民幣足以處理約284張720P分辨率的圖片。這一價格相較于市場同類服務(wù),降低了高達(dá)85%,極大地降低了企業(yè)采用AI技術(shù)的門檻。
火山引擎總裁譚待在會上指出,豆包視覺理解模型不僅具備高精度的視覺內(nèi)容識別能力,還展現(xiàn)了卓越的理解與推理能力。它能夠基于圖像信息執(zhí)行復(fù)雜的邏輯運(yùn)算,包括但不限于分析圖表、處理編程代碼以及解答學(xué)科難題等。
目前,豆包視覺理解模型已順利接入豆包App及其PC端產(chǎn)品,為用戶提供更加智能、高效的視覺處理服務(wù)。字節(jié)跳動還透露,豆包視頻生成模型的1.5版本將于2025年春季發(fā)布,新版本將具備更強(qiáng)大的長視頻生成能力。同時,豆包端到端實時語音模型也即將上線,進(jìn)一步拓展其AI技術(shù)的應(yīng)用場景。
在合作方面,豆包大模型已贏得了八成主流汽車品牌的青睞,并與多家手機(jī)、PC等智能終端制造商建立了合作關(guān)系。據(jù)統(tǒng)計,豆包大模型已覆蓋約3億臺終端設(shè)備,且在短短半年內(nèi),來自智能終端的模型調(diào)用量激增了100倍,充分展示了其強(qiáng)大的市場影響力和應(yīng)用潛力。