ITBear旗下自媒體矩陣:

微軟新專利曝光:音生圖AI,會(huì)議背景隨話題實(shí)時(shí)變!

   時(shí)間:2024-10-15 20:18:57 來(lái)源:ITBEAR作者:蘇婉清編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR】微軟近期宣布,他們成功獲得了一項(xiàng)創(chuàng)新專利,該技術(shù)能夠?qū)崟r(shí)將用戶的語(yǔ)音輸入轉(zhuǎn)化為生動(dòng)的圖片,為會(huì)議和講座帶來(lái)前所未有的視覺(jué)革新。據(jù)悉,這項(xiàng)專利的核心在于能夠?qū)崟r(shí)捕捉會(huì)議或講座中的音頻內(nèi)容,借助先進(jìn)的語(yǔ)言模型進(jìn)行內(nèi)容提煉,并最終生成相應(yīng)的AI圖像。整個(gè)過(guò)程涵蓋了音頻捕捉、文本處理和圖像生成三大環(huán)節(jié)。

在實(shí)際操作中,用戶通過(guò)麥克風(fēng)發(fā)言,系統(tǒng)即刻捕捉音頻并將其轉(zhuǎn)換為文本。隨后,系統(tǒng)將文本進(jìn)行分段處理,并運(yùn)用語(yǔ)言模型對(duì)每段內(nèi)容進(jìn)行精煉總結(jié)。最后,根據(jù)這些總結(jié)內(nèi)容,系統(tǒng)生成相應(yīng)的AI圖像,并實(shí)時(shí)展示在屏幕上。

微軟計(jì)劃將這項(xiàng)技術(shù)廣泛應(yīng)用于其Microsoft Teams平臺(tái),使其能夠根據(jù)演講者話題的變化實(shí)時(shí)更新圖像,從而極大地提升視覺(jué)溝通效果。微軟強(qiáng)調(diào),這種圖像輔助功能對(duì)于視覺(jué)學(xué)習(xí)者來(lái)說(shuō)尤為有益,能夠幫助他們更清晰地理解和吸收信息。

這項(xiàng)專利的申請(qǐng)始于2023年4月5日,經(jīng)過(guò)長(zhǎng)達(dá)半年的嚴(yán)格審核,最終于10月獲得了美國(guó)商標(biāo)和專利局的正式批準(zhǔn)。該專利文件共計(jì)20頁(yè),詳細(xì)闡述了如何將語(yǔ)音實(shí)時(shí)轉(zhuǎn)化為圖像的技術(shù)細(xì)節(jié)。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容