谷歌近期在科技界再次投下一枚震撼彈,伴隨著Gemini 2.0版本的發(fā)布,一款名為多模態(tài)直播(Multimodal Live)的全新API也正式亮相。這款A(yù)PI旨在為開發(fā)者提供強(qiáng)大的實(shí)時(shí)音頻與視頻流功能,助力他們打造出更為先進(jìn)的應(yīng)用程序。
這款多模態(tài)直播API不僅實(shí)現(xiàn)了低延遲的雙向文本、音頻和視頻交互,還通過音頻和文本形式的輸出,為用戶帶來了前所未有的自然流暢對(duì)話體驗(yàn)。用戶可以隨時(shí)隨地打斷模型,并通過攝像頭輸入或屏幕錄像與模型進(jìn)行互動(dòng),提出自己的疑問或分享見解。
多模態(tài)直播API的視頻理解功能進(jìn)一步拓展了通信的邊界,用戶現(xiàn)在可以使用攝像頭實(shí)時(shí)拍攝或共享桌面內(nèi)容,并基于此提出相關(guān)問題。這種創(chuàng)新的功能使得用戶與模型的互動(dòng)更加直觀和高效。
為了推動(dòng)這一技術(shù)的普及和應(yīng)用,谷歌已經(jīng)向開發(fā)者全面開放了這款A(yù)PI,并提供了一個(gè)多模態(tài)實(shí)時(shí)助手的演示應(yīng)用。這一演示應(yīng)用充分展示了API的強(qiáng)大功能和便捷性,為開發(fā)者提供了寶貴的參考和靈感。
這款A(yù)PI還支持集成多種工具,大大簡化了開發(fā)過程。開發(fā)者只需進(jìn)行一次API調(diào)用,就能輕松實(shí)現(xiàn)復(fù)雜的用例,從而大大提高了開發(fā)效率和用戶體驗(yàn)。