ITBear旗下自媒體矩陣:

不甘落后 Facebook語音助手技術(shù)從VR頭顯開始

   時間:2017-07-08 11:38:21 來源:鳳凰科技 編輯:星輝 發(fā)表評論無障礙通道

圖:Oculus虛擬現(xiàn)實頭顯

Oculus虛擬現(xiàn)實頭顯

鳳凰科技訊據(jù)CNBC北京時間7月8日報道,蘋果有Siri,亞馬遜有Alexa,微軟開發(fā)了小娜,Alphabet發(fā)布了谷歌助手。

科技巨頭競相通過硬件產(chǎn)品和應(yīng)用向消費者提供語音識別技術(shù),但很奇怪的是一家公司缺席了:Facebook。

雖然馬克·扎克伯格(Mark Zuckerberg)已經(jīng)使Facebook應(yīng)用在全球范圍內(nèi)得到普及——上周Facebook全球活躍用戶突破20億、WhatsApp活躍用戶達到12億,但是,在語音助手方面,F(xiàn)acebook落后于競爭對手。

語音助手太過重要,F(xiàn)acebook不會對此無動于衷。市場研究公司Markets and Markets去年預(yù)測,2022年全球語音識別市場可能達到100億美元。除利潤外,互聯(lián)網(wǎng)公司需要大量用戶使用它們的語音工具,以積累大量數(shù)據(jù),進一步改進服務(wù)。

在發(fā)布語音技術(shù)方面,硬件廠商有很大優(yōu)勢,因為它們直接面向消費者。不同于蘋果、亞馬遜和Alphabet的是,F(xiàn)acebook沒有被億萬消費者廣泛使用的硬件產(chǎn)品或移動操作系統(tǒng)。

Facebook旗下一款硬件產(chǎn)品是Oculus虛擬現(xiàn)實頭顯。Facebook要進軍語音識別市場,Oculus成為了試驗田之一。

Facebook的想法是,在佩戴虛擬現(xiàn)實頭顯時,用戶可以說出“Hey Oculus”和自己的問題,然后收到反饋信息。例如,用戶可以要求打開一款特定游戲或搜索應(yīng)用商店。這一技術(shù)支持Oculus Rift和三星Gear VR頭顯——后者使用了Oculus技術(shù)。

Facebook應(yīng)用機器學(xué)習(xí)集團負責(zé)人杰奎因·奎因尼羅·坎德拉(Joaquin Quinonero Candela)上周在接受采訪時說,“要操縱任何無需動手的界面,用戶肯定需要用到語音。”

Facebook對語音識別技術(shù)的應(yīng)用不僅僅局限于Oculus。它還部署了一個系統(tǒng),自動地生成視頻字幕。Facebook在開發(fā)更多采用語音識別技術(shù)的產(chǎn)品。

2013年從紐約大學(xué)挖來揚·樂庫恩(Yann LeCun),標志著Facebook涉足人工智能領(lǐng)域。樂庫恩是人工智能專家,領(lǐng)導(dǎo)著新成立的Facebook人工智能研究部門。

Push和pull

數(shù)個月內(nèi),F(xiàn)acebook以樂庫恩研究部門的技術(shù)為基礎(chǔ),開發(fā)出適合在市場上發(fā)布的產(chǎn)品。Facebook后來成立了應(yīng)用機器學(xué)習(xí)部門,負責(zé)人是坎德拉——曾在微軟研究院任職。

盡管最近數(shù)年Alphabet、蘋果和微軟一直在大肆宣揚系統(tǒng)精度的提升,但Facebook在語音識別領(lǐng)域卻相當(dāng)?shù)驼{(diào)。

坎德拉表示,約2年半前,他的部門開始開發(fā)語音增強產(chǎn)品,并得到Jibbigo——Facebook 2013年收購的一家創(chuàng)業(yè)公司——的幫助。

坎德拉說,F(xiàn)acebook的研發(fā)活動分為兩大類:Push和Pull。“Push”指認為某一技術(shù)未來會有多方面用途,然后開始開發(fā);“Pull”指工程師提出需要開發(fā)的技術(shù)。語音識別屬于“Push”類技術(shù)。

研究人員提到的語音識別技術(shù)的一種使用場景,是自動生成視頻字幕。谷歌在2009年就開始這一方面的研究。

發(fā)現(xiàn)問題

Facebook最初專注于廣告。當(dāng)時的情況是,用戶在關(guān)閉聲音的情況下翻看自己的信息流,為了使廣告更容易被用戶注意到,廣告客戶需要在視頻中添加文本。

Facebook語音架構(gòu)集團工程師雷娜·菲利普(Reena Philip)表示,通過與廣告團隊合作,“我們開發(fā)出了原型產(chǎn)品”。

Facebook去年第二季度發(fā)布了這一功能。Facebook則繼續(xù)深挖這一技術(shù),自動為發(fā)布到其服務(wù)中的視頻生成字幕。

坎德拉說,“我們進行過試驗——增添字幕后,視頻觀看量增長了2位數(shù)。”

與視頻字幕生成系統(tǒng)不同的是,Oculus語音識別功能是“Pull”的一個案例。

隨著應(yīng)用和游戲越來越多,Gear VR用戶要找到喜歡的內(nèi)容越來越困難。大聲說出來成為獲得具體內(nèi)容的一種方法。

Facebook還需要確保與Gear VR配套的三星智能手機也能響應(yīng)“Hey Oculus”命令。與Oculus Rift不同的是,Gear VR由配套手機提供運算能力,它本身沒有強大的運算能力。

蘋果和谷歌已經(jīng)把語音激活開關(guān)整合到手機中,現(xiàn)在Facebook也要這樣做。

菲利普表示,語音識別技術(shù)第四季度登陸Oculus時,它只支持美國英語,但團隊已經(jīng)開始為它增添更多種類的英語“方言”。

菲利普說,隨著時間推移,F(xiàn)acebook可能使Oculus語音識別技術(shù)能在線下運行。Facebook還可能最終支持英語之外的其他語言。

除此之外,F(xiàn)acebook員工并不清楚公司在語音識別技術(shù)領(lǐng)域未來的發(fā)展。

目前,F(xiàn)acebook主要業(yè)務(wù)是社區(qū)。這可能決定Facebook語音識別技術(shù)的未來發(fā)展方向。Facebook產(chǎn)品經(jīng)理默林·鄧(Merlyn Deng)說,“我們未來的語音識別技術(shù)必須與公司使命,以及我們掌握的數(shù)據(jù)相契合。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version