【ITBEAR科技資訊】7月5日消息,商湯科技今日正式發(fā)布了全新的“日日新 SenseNova 5.5”大模型體系,并同時推出了國內(nèi)首款所見即所得模型“日日新 5o”。該模型以其卓越的交互效果,直接對標(biāo)業(yè)界領(lǐng)先的GPT-4o。
“日日新 5o”通過深度整合聲音、文本、圖像和視頻等多種形式的跨模態(tài)信息,為用戶帶來了一種前所未有的AI交互體驗——實時的流式多模態(tài)交互。這種交互方式賦予了模型聽、看以及尋找話題的能力,使其在與用戶的溝通中表現(xiàn)得如同一個真實的對話伙伴。
據(jù)ITBEAR科技資訊了解,“日日新 5o”的交互模式在實時對話和語音識別等領(lǐng)域具有廣泛的應(yīng)用前景。其強大的多任務(wù)處理能力使得它可以在同一模型中同時處理多種任務(wù),并且能夠根據(jù)不同的上下文環(huán)境靈活地調(diào)整其響應(yīng)和行為。
作為國內(nèi)首個流式原生多模態(tài)交互模型,“日日新 5.5”的推出無疑是一個重要的里程碑。該模型基于超過10TB的高質(zhì)量訓(xùn)練數(shù)據(jù),其中包括大量精心合成的人工數(shù)據(jù),構(gòu)建起了復(fù)雜而高效的高階思維鏈。通過采用創(chuàng)新的混合端云協(xié)同架構(gòu),“日日新 5.5”擁有高達(dá)6000億的參數(shù),從而確保了模型能夠在云端和邊緣端之間實現(xiàn)最佳協(xié)同,提供高達(dá)109.5字/秒的快速推理能力。
此外,商湯科技在本次發(fā)布會上還揭曉了另一項重要創(chuàng)新——可控人物視頻生成大模型Vimi。這款面向消費者用戶的大模型僅需一張任意風(fēng)格的照片,便能生成與目標(biāo)動作高度一致的人物視頻。Vimi支持通過多種方式進行驅(qū)動,包括現(xiàn)有的人物視頻、動畫、聲音以及文字等,為用戶提供了極大的創(chuàng)作靈活性。