ITBear旗下自媒體矩陣:

微軟新探索:音生圖AI,實時視覺化會議演講場景?

   時間:2024-10-15 13:26:32 來源:ITBEAR作者:楊凌霄編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】近日,科技媒體MSPoweruser發(fā)布報道,透露微軟公司新獲一項創(chuàng)新專利,該專利描述了一種基于用戶實時語音輸入來生成圖片的技術(shù)。

據(jù)悉,這項專利文件長達(dá)20頁,微軟于2023年4月5日提交申請,并于10月10日獲得批準(zhǔn)。根據(jù)專利的詳細(xì)描述,該系統(tǒng)能夠在會議或講座等場合實時捕捉音頻內(nèi)容,隨后利用語言模型對這些音頻進(jìn)行總結(jié),并據(jù)此生成相應(yīng)的AI圖像。

該專利所描述的工作流程分為三個主要步驟:首先是捕捉音頻,即用戶通過麥克風(fēng)發(fā)言,系統(tǒng)實時記錄并將其轉(zhuǎn)化為文本;其次是處理文本,系統(tǒng)將文本分段記錄,并對每段內(nèi)容通過語言模型進(jìn)行總結(jié);最后是生成圖像,系統(tǒng)根據(jù)總結(jié)生成的提示,創(chuàng)建AI生成的圖像,并在屏幕上實時顯示。

預(yù)計這一功能將主要應(yīng)用于Microsoft Teams平臺。隨著演講者話題的變化,實時生成的圖像也會隨之更新,從而為用戶帶來更加豐富的視覺溝通體驗。微軟表示,這種圖像的使用有助于澄清概念,尤其適合那些需要通過視覺輔助來學(xué)習(xí)的用戶。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version