ITBear旗下自媒體矩陣:

微軟新探索:音生圖AI,實時視覺化會議場景?

   時間:2024-10-15 14:21:09 來源:ITBEAR作者:任飛揚編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】近日,科技媒體MSPoweruser報道了一項微軟新獲得的專利,該專利描述了一種基于用戶實時語音輸入生成圖片的技術(shù)。據(jù)悉,這項專利共計20頁,于2023年4月5日提交申請,并于10月10日獲得批準。

根據(jù)專利描述,此系統(tǒng)能夠在會議或講座等場合實時捕捉音頻,通過語言模型進行處理并總結(jié)內(nèi)容,隨后生成相應(yīng)的AI圖像。此過程包含三個主要步驟:捕捉音頻、處理文本以及生成圖像。

具體來說,用戶通過麥克風(fēng)發(fā)言,系統(tǒng)實時記錄并轉(zhuǎn)化為文本。然后,系統(tǒng)分段記錄文本,并使用語言模型對每段內(nèi)容進行總結(jié)。最后,根據(jù)這些總結(jié)生成的提示,系統(tǒng)創(chuàng)建出AI生成的圖像,并在屏幕上實時顯示。

預(yù)計這一功能將主要應(yīng)用于Microsoft Teams,隨著演講者話題的變化,實時生成的圖像也會隨之更新,從而為用戶帶來更加豐富的視覺溝通體驗。微軟表示,這種圖像的使用有助于澄清概念,尤其適合需要通過視覺輔助來學(xué)習(xí)的用戶。

此專利的獲得展示了微軟在AI技術(shù)領(lǐng)域的持續(xù)創(chuàng)新和進步,未來有望在會議、教育等多個領(lǐng)域發(fā)揮重要作用,為用戶提供更加直觀、高效的信息傳遞和溝通方式。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version