滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

時(shí)間：2016-01-27 13:32:47 來(lái)源：ITbear編輯：星輝 發(fā)表評(píng)論無(wú)障礙通道

未來(lái)人工智能會(huì)像水和電一樣無(wú)所不在，在“萬(wàn)物互聯(lián)時(shí)代”，語(yǔ)音將成為人機(jī)交互的新常態(tài)。風(fēng)吹麥浪，靜夜蟲鳴。人類能聽到的聲音大約有40多萬(wàn)種，頻率在20至20000赫茲之間。智能終端能聽到多少呢?

在科大訊飛2015年度發(fā)布會(huì)的現(xiàn)場(chǎng)，3000余人見證了這樣的一場(chǎng)人機(jī)互動(dòng)。演示人員在5米開外，用聲音操控DingDong，完成了一系列高難度的訂票任務(wù)，引來(lái)臺(tái)下陣陣驚嘆!

現(xiàn)場(chǎng)那么嘈雜，DingDong卻如此“聽話”,要讓DingDong聽懂這么多聲音，而且具備遠(yuǎn)場(chǎng)識(shí)別的功能，它必須聽的到，而且要聽的更加清晰，人類可以帶上助聽器，機(jī)器需要什么呢?

【麥克風(fēng)陣列】就充當(dāng)了助聽器這樣的角色。這個(gè)名詞是不是很陌生,放心!下面小編和你嘮嘮這個(gè)【麥克風(fēng)陣列】。

麥克風(fēng)陣列(Microphone Array)，從字面上，指的是麥克風(fēng)的排列。也就是說(shuō)由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成，用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。

早在20世紀(jì)70、80年代，麥克風(fēng)陣列已經(jīng)被應(yīng)用于語(yǔ)音信號(hào)處理的研究中，進(jìn)入90年代以來(lái)，基于麥克風(fēng)陣列的語(yǔ)音信號(hào)處理算法逐漸成為一個(gè)新的研究熱點(diǎn)。而到了“聲控時(shí)代”，這項(xiàng)技術(shù)的重要性顯得尤為突出。

麥克風(fēng)陣列能干什么?

任何一項(xiàng)技術(shù)的發(fā)生發(fā)展都伴隨著問題的提出及解決，麥克風(fēng)陣列也是如此。那么它主要應(yīng)用在哪些場(chǎng)景下呢?又有著怎樣的功能!

◆【噪聲環(huán)境怎么破?】—— 語(yǔ)音增強(qiáng)(Speech Enhancement)

語(yǔ)音增強(qiáng)是指當(dāng)語(yǔ)音信號(hào)被各種各樣的噪聲(包括語(yǔ)音)干擾甚至淹沒后，從含噪聲的語(yǔ)音信號(hào)中提取出純凈語(yǔ)音的過程。所以DingDong在嘈雜環(huán)境下，也能準(zhǔn)確識(shí)別語(yǔ)音指令。

通過麥克風(fēng)陣列波束形成進(jìn)行語(yǔ)音增強(qiáng)示意圖

從20世紀(jì)60年代開始，Boll等研究者先后提出了針對(duì)使用一個(gè)麥克風(fēng)的語(yǔ)音增強(qiáng)技術(shù)，稱為單通道語(yǔ)音增強(qiáng)。因?yàn)樗褂玫柠溈孙L(fēng)個(gè)數(shù)最少，并且充分考慮到了語(yǔ)音譜和噪聲譜的特性，使得這些方法在某些場(chǎng)景下也具有較好的噪聲抑制效果，并因其方法簡(jiǎn)單、易于實(shí)現(xiàn)的特點(diǎn)廣泛應(yīng)用于現(xiàn)有語(yǔ)音通信系統(tǒng)與消費(fèi)電子系統(tǒng)中。

但是，在復(fù)雜的聲學(xué)環(huán)境下，噪聲總是來(lái)自于四面八方，且其與語(yǔ)音信號(hào)在時(shí)間和頻譜上常常是相互交疊的，再加上回波和混響的影響，利用單麥克風(fēng)捕捉相對(duì)純凈的語(yǔ)音是非常困難的。而麥克風(fēng)陣列融合了語(yǔ)音信號(hào)的空時(shí)信息，可以同時(shí)提取聲源并抑制噪聲。

目前科大訊飛已經(jīng)實(shí)現(xiàn)了基于線性陣列、平面陣列以及空間立體陣列的波束形成和降噪技術(shù)，效果均達(dá)到業(yè)界一流水平。

2013年科大訊飛車載降噪產(chǎn)品和國(guó)際競(jìng)爭(zhēng)對(duì)手效果對(duì)比

◆【說(shuō)話人老是變幻位置怎么破?】——聲源定位(Source Localization)

現(xiàn)實(shí)中，聲源的位置是不斷變化的，這對(duì)于麥克風(fēng)收音來(lái)說(shuō)，是個(gè)障礙。麥克風(fēng)陣列則可以進(jìn)行聲源定位，聲源定位技術(shù)是指使用麥克風(fēng)陣列來(lái)計(jì)算目標(biāo)說(shuō)話人的角度和距離，從而實(shí)現(xiàn)對(duì)目標(biāo)說(shuō)話人的跟蹤以及后續(xù)的語(yǔ)音定向拾取，是人機(jī)交互、音視頻會(huì)議等領(lǐng)域非常重要的前處理技術(shù)。所以麥克風(fēng)陣列技術(shù)不限制說(shuō)話人的運(yùn)動(dòng)，不需要移動(dòng)位置以改變其接收方向，具有靈活的波束控制、較高的空間分辨率、高的信號(hào)增益與較強(qiáng)的抗干擾能力等特點(diǎn)，因而成為智能語(yǔ)音處理系統(tǒng)中捕捉說(shuō)話人語(yǔ)音的重要手段。

混響產(chǎn)生原因示意圖

◆【室內(nèi)回聲太大怎么破?】——去混響(Dereverberation)

一般我們聽音樂時(shí)，希望有混響的效果，這是聽覺上的一種享受。合適的混響會(huì)使得聲音圓潤(rùn)動(dòng)聽、富有感染力?；祉?Reverberation)現(xiàn)象指的是聲波在室內(nèi)傳播時(shí)，要被墻壁、天花板、地板等障礙物形成反射聲，并和直達(dá)聲形成疊加，這種現(xiàn)象稱為混響。

但是，混響現(xiàn)象對(duì)于識(shí)別就沒有什么好處了。由于混響則會(huì)使得不同步的語(yǔ)音相互疊加，帶來(lái)了音素的交疊掩蔽效應(yīng)(Phoneme Overlap Effect)，從而嚴(yán)重影響語(yǔ)音識(shí)別效果。

影響語(yǔ)音識(shí)別的部分一般是晚期混響部分，所以去混響的主要工作重點(diǎn)是放在如何去除晚期混響上面，多年來(lái)，去混響技術(shù)抑制是業(yè)界研究的熱點(diǎn)和難點(diǎn)。利用麥克風(fēng)陣列去混響的主要方法有以下幾種：

1、基于盲語(yǔ)音增強(qiáng)的方法(Blind signal enhancement approach)，即將混響信號(hào)作為普通的加性噪聲信號(hào)，在這個(gè)上面應(yīng)用語(yǔ)音增強(qiáng)算法。

2、基于波束形成的方法(Beamforming based approach)，通過將多麥克風(fēng)對(duì)收集的信號(hào)進(jìn)行加權(quán)相加，在目標(biāo)信號(hào)的方向形成一個(gè)拾音波束，同時(shí)衰減來(lái)自其他方向的反射聲。

3、基于逆濾波的方法(An inverse filtering approach)，通過麥克風(fēng)陣列估計(jì)房間的房間沖擊響應(yīng)(Room Impulse Response, RIR)，設(shè)計(jì)重構(gòu)濾波器來(lái)補(bǔ)償來(lái)消除混響。

現(xiàn)在科大訊飛實(shí)現(xiàn)的基于麥克風(fēng)陣列的去混響技術(shù)能很好的對(duì)房間的混響情況進(jìn)行自適應(yīng)的估計(jì)，從而很好的進(jìn)行純凈信號(hào)的還原，顯著的提升了語(yǔ)音聽感和識(shí)別效果，在測(cè)試對(duì)比中，多種混響時(shí)間下識(shí)別效果接近手機(jī)近講水平。

混響語(yǔ)音信號(hào)頻譜

經(jīng)過去混響后的語(yǔ)音信號(hào)頻譜

◆【說(shuō)話人太多怎么破?】——聲源信號(hào)提取(分離)

家里人說(shuō)話太多，DingDong聽誰(shuí)的呢。這個(gè)時(shí)候就需要DingDong聰明的辨別出哪個(gè)聲音才是指令。而麥克風(fēng)陣列可以實(shí)現(xiàn)聲源信號(hào)提取，聲源信號(hào)的提取就是從多個(gè)聲音信號(hào)中提取出目標(biāo)信號(hào)，聲源信號(hào)分離技術(shù)則是將需要將多個(gè)混合聲音全部提取出來(lái)。

通過麥克風(fēng)陣列波束形成做語(yǔ)音提取和分離

利用麥克風(fēng)陣列做信號(hào)的提取和分離主要有以下幾種方式：

1、基于波束形成的方法，即通過向不同方向的聲源分別形成拾音波束，并且抑制其他方向的聲音，來(lái)進(jìn)行語(yǔ)音提取或分離：

2、基于傳統(tǒng)的盲源信號(hào)分離(Blind Source Separation)的方法進(jìn)行，主要包括主成分分析(Principal Component Analysis，PCA)和基于獨(dú)立成分分析(Independent Component Analysis，ICA)的方法。

進(jìn)擊的麥克風(fēng)陣列

麥克風(fēng)陣列技術(shù)雖然已經(jīng)可以達(dá)到相當(dāng)?shù)募夹g(shù)水平，但是總體上還是存在一些問題的，比如當(dāng)麥克風(fēng)和信號(hào)源距離太遠(yuǎn)時(shí)(比如10m、20m距離)，錄制信號(hào)的信噪比會(huì)很低，算法處理難度很大;對(duì)于便攜設(shè)備來(lái)說(shuō)，受設(shè)備尺寸以及功耗的限制，麥克風(fēng)的個(gè)數(shù)不能太多，陣列尺寸也不能太大。而分布式麥克風(fēng)陣列技術(shù)則是解決當(dāng)前問題的一個(gè)可能途徑。所謂分布式陣列就是將子陣元或子陣列布局到更大的范圍內(nèi)，相互之間通過有線或者無(wú)線的方式進(jìn)行數(shù)據(jù)的交換和共享，并在此基礎(chǔ)上進(jìn)行廣義上的聲源定位、波束形成等技術(shù)實(shí)現(xiàn)信號(hào)處理。

相對(duì)于目前集中式的麥克風(fēng)陣列，分布式陣列的優(yōu)勢(shì)也是非常明顯的。首先分布式麥克風(fēng)陣列(尤其無(wú)線傳輸)的尺寸的限制就不存在了;另外，陣列的節(jié)點(diǎn)可以覆蓋很大的面積——總會(huì)有一個(gè)陣列的節(jié)點(diǎn)距離聲源很近，錄音信噪比大幅度提升，算法處理難度也會(huì)降低，總體的信號(hào)處理的效果也會(huì)有非常顯著的提升，因此分布式陣列有可能是未來(lái)智能家居和會(huì)議系統(tǒng)中的主流方案。目前科大訊飛已經(jīng)開始了相關(guān)技術(shù)研究的布局工作。

在萬(wàn)物互聯(lián)的今天，麥克風(fēng)陣列技術(shù)已經(jīng)深刻的走進(jìn)了我們的日常生活。在智能車載、智能家居、機(jī)器人、可穿戴設(shè)備等應(yīng)用熱潮正興起的時(shí)代，語(yǔ)音交互由于其便捷性，成了人機(jī)交互入口的第一選擇，麥克風(fēng)陣列自然也成為其中非常重要的前端技術(shù)。

2015年5月25日上海CES展上亮相的DingDong音箱

DingDong音箱中的麥克風(fēng)陣列方案

試想一下，未來(lái)，你身邊的智能機(jī)器人通過聲源定位技術(shù)找到主人的方位，通過降噪技術(shù)濾除環(huán)境噪聲和混響，你可以自由在任意場(chǎng)景中控制機(jī)器人，回聲消除技術(shù)也可用于消除設(shè)備自身播放的聲音，從而真正的實(shí)現(xiàn)正真意義上的交互!

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

水滴公司Q3財(cái)報(bào)亮點(diǎn)：營(yíng)收穩(wěn)步增長(zhǎng)，運(yùn)營(yíng)利潤(rùn)達(dá)2650萬(wàn)

12-19

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE圖賞來(lái)襲！

12-19

寵物糧市場(chǎng)亂象頻發(fā)，鏟屎官如何為寵物選對(duì)糧？

據(jù)“趣解商業(yè)”了解，“源鮮”曾是網(wǎng)易嚴(yán)選、喵梵思等國(guó)產(chǎn)中高端品牌多次合作的代工廠，在不少養(yǎng)寵人心中有較高信任度；“源鮮”的塌房，再次挑動(dòng)了許多養(yǎng)寵人的神經(jīng)。 Erica還提到，寵糧本質(zhì)上屬于快消行業(yè)，并不是靠…

12-19

柔韌機(jī)器人：具身智能的新賽道與革命性突破？

相比于現(xiàn)階段普遍使用的基于電機(jī)關(guān)節(jié)、金屬材料、復(fù)雜傳感器和精密加工工藝的“剛性”機(jī)器人技術(shù)，萬(wàn)勛科技通過使用軟性材料與氣/液驅(qū)動(dòng)，以軟材料仿生肌肉和神經(jīng)元智能復(fù)刻人類肌肉柔韌特性，具備輕巧靈活、安全互動(dòng)、易…

12-19

北京中關(guān)村科學(xué)城國(guó)際醫(yī)谷開工，打造醫(yī)療健康產(chǎn)業(yè)集聚新高地

作為項(xiàng)目建設(shè)推進(jìn)方，北京海新域城市更新集團(tuán)相關(guān)負(fù)責(zé)人介紹，中關(guān)村科學(xué)城國(guó)際醫(yī)谷項(xiàng)目將在產(chǎn)業(yè)鏈上游吸引頂尖研發(fā)機(jī)構(gòu)和企業(yè)，匯聚創(chuàng)新源頭力量；在中游通過公共技術(shù)服務(wù)平臺(tái)降低研發(fā)門檻，助力創(chuàng)新的想法實(shí)施；在下游建…

12-19

《獵人克萊文》IGN僅評(píng)3分，高成本制作卻換來(lái)低質(zhì)口碑？

12-19

中興通訊股價(jià)異動(dòng)，公司稱生產(chǎn)經(jīng)營(yíng)正常，無(wú)未公開重大信息影響股價(jià)

12-19

順豐控股11月速運(yùn)物流營(yíng)收微增，供應(yīng)鏈及國(guó)際業(yè)務(wù)增長(zhǎng)超兩成

12-19

澳門風(fēng)情畫軸展開，智界新S7穿梭其中成焦點(diǎn)

12-19

國(guó)產(chǎn)高端儀器新突破！首套高精度激光干涉儀測(cè)評(píng)裝置研制成功

12-19

中國(guó)大陸TFT基Micro LED量產(chǎn)線點(diǎn)亮，新一代顯示技術(shù)破繭而出！

12-19

字節(jié)跳動(dòng)警示：勿盲從“豆包概念股”市場(chǎng)傳言

三言科技12月19日消息，今日，字節(jié)跳動(dòng)發(fā)布聲明稱，近期，資本市場(chǎng)出現(xiàn)炒作“豆包概念股”現(xiàn)象，流傳著眾多夸大其詞甚至虛構(gòu)內(nèi)容。涉及字節(jié)跳動(dòng)資本開支、數(shù)據(jù)中心花費(fèi)、AI硬件、應(yīng)用合作等多方面。字節(jié)跳動(dòng)強(qiáng)調(diào)，投…

12-19

第十六屆無(wú)錫新能源展盛啟，27大項(xiàng)目簽約，新能源裝備之都蓄勢(shì)待發(fā)！

12-19

極氪007獵裝版路測(cè)諜照流出，圓潤(rùn)車身配空氣懸架引期待

12-19

阿維塔06中型轎車2025Q2來(lái)襲，20萬(wàn)級(jí)主打珊瑚紅，年輕范兒十足！

12-19

點(diǎn)擊查看更多 +

全站最新

黑洞風(fēng)狂飆！時(shí)速3600萬(wàn)英里，能否重塑宇宙星系新貌？

月亮對(duì)地球有多重要？《我們真的需要月亮嗎》紀(jì)錄片深度解讀

水滴公司Q3財(cái)報(bào)亮點(diǎn)：營(yíng)收穩(wěn)步增長(zhǎng)，運(yùn)營(yíng)利潤(rùn)達(dá)2650萬(wàn)

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE圖賞來(lái)襲！

iQOO Neo10 Pro：游戲玩家新寵，旗艦性能暢爽體驗(yàn)

國(guó)產(chǎn)DDR5新突破！光威金百達(dá)32GB套裝僅需499元首發(fā)

熱門內(nèi)容

本欄最新

水滴公司Q3財(cái)報(bào)亮點(diǎn)：營(yíng)收穩(wěn)步增長(zhǎng)，運(yùn)營(yíng)利潤(rùn)達(dá)2650萬(wàn)

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE圖賞來(lái)襲！

寵物糧市場(chǎng)亂象頻發(fā)，鏟屎官如何為寵物選對(duì)糧？

柔韌機(jī)器人：具身智能的新賽道與革命性突破？

北京中關(guān)村科學(xué)城國(guó)際醫(yī)谷開工，打造醫(yī)療健康產(chǎn)業(yè)集聚新高地

《獵人克萊文》IGN僅評(píng)3分，高成本制作卻換來(lái)低質(zhì)口碑？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.