圖:Oculus虛擬現(xiàn)實頭顯
Oculus虛擬現(xiàn)實頭顯
鳳凰科技訊據(jù)CNBC北京時間7月8日報道,蘋果有Siri,亞馬遜有Alexa,微軟開發(fā)了小娜,Alphabet發(fā)布了谷歌助手。
科技巨頭競相通過硬件產(chǎn)品和應(yīng)用向消費者提供語音識別技術(shù),但很奇怪的是一家公司缺席了:Facebook。
雖然馬克·扎克伯格(Mark Zuckerberg)已經(jīng)使Facebook應(yīng)用在全球范圍內(nèi)得到普及——上周Facebook全球活躍用戶突破20億、WhatsApp活躍用戶達到12億,但是,在語音助手方面,F(xiàn)acebook落后于競爭對手。
語音助手太過重要,F(xiàn)acebook不會對此無動于衷。市場研究公司Markets and Markets去年預(yù)測,2022年全球語音識別市場可能達到100億美元。除利潤外,互聯(lián)網(wǎng)公司需要大量用戶使用它們的語音工具,以積累大量數(shù)據(jù),進一步改進服務(wù)。
在發(fā)布語音技術(shù)方面,硬件廠商有很大優(yōu)勢,因為它們直接面向消費者。不同于蘋果、亞馬遜和Alphabet的是,F(xiàn)acebook沒有被億萬消費者廣泛使用的硬件產(chǎn)品或移動操作系統(tǒng)。
Facebook旗下一款硬件產(chǎn)品是Oculus虛擬現(xiàn)實頭顯。Facebook要進軍語音識別市場,Oculus成為了試驗田之一。
Facebook的想法是,在佩戴虛擬現(xiàn)實頭顯時,用戶可以說出“Hey Oculus”和自己的問題,然后收到反饋信息。例如,用戶可以要求打開一款特定游戲或搜索應(yīng)用商店。這一技術(shù)支持Oculus Rift和三星Gear VR頭顯——后者使用了Oculus技術(shù)。
Facebook應(yīng)用機器學(xué)習(xí)集團負責(zé)人杰奎因·奎因尼羅·坎德拉(Joaquin Quinonero Candela)上周在接受采訪時說,“要操縱任何無需動手的界面,用戶肯定需要用到語音。”
Facebook對語音識別技術(shù)的應(yīng)用不僅僅局限于Oculus。它還部署了一個系統(tǒng),自動地生成視頻字幕。Facebook在開發(fā)更多采用語音識別技術(shù)的產(chǎn)品。
2013年從紐約大學(xué)挖來揚·樂庫恩(Yann LeCun),標志著Facebook涉足人工智能領(lǐng)域。樂庫恩是人工智能專家,領(lǐng)導(dǎo)著新成立的Facebook人工智能研究部門。
Push和pull
數(shù)個月內(nèi),F(xiàn)acebook以樂庫恩研究部門的技術(shù)為基礎(chǔ),開發(fā)出適合在市場上發(fā)布的產(chǎn)品。Facebook后來成立了應(yīng)用機器學(xué)習(xí)部門,負責(zé)人是坎德拉——曾在微軟研究院任職。
盡管最近數(shù)年Alphabet、蘋果和微軟一直在大肆宣揚系統(tǒng)精度的提升,但Facebook在語音識別領(lǐng)域卻相當(dāng)?shù)驼{(diào)。
坎德拉表示,約2年半前,他的部門開始開發(fā)語音增強產(chǎn)品,并得到Jibbigo——Facebook 2013年收購的一家創(chuàng)業(yè)公司——的幫助。
坎德拉說,F(xiàn)acebook的研發(fā)活動分為兩大類:Push和Pull。“Push”指認為某一技術(shù)未來會有多方面用途,然后開始開發(fā);“Pull”指工程師提出需要開發(fā)的技術(shù)。語音識別屬于“Push”類技術(shù)。
研究人員提到的語音識別技術(shù)的一種使用場景,是自動生成視頻字幕。谷歌在2009年就開始這一方面的研究。
發(fā)現(xiàn)問題
Facebook最初專注于廣告。當(dāng)時的情況是,用戶在關(guān)閉聲音的情況下翻看自己的信息流,為了使廣告更容易被用戶注意到,廣告客戶需要在視頻中添加文本。
Facebook語音架構(gòu)集團工程師雷娜·菲利普(Reena Philip)表示,通過與廣告團隊合作,“我們開發(fā)出了原型產(chǎn)品”。
Facebook去年第二季度發(fā)布了這一功能。Facebook則繼續(xù)深挖這一技術(shù),自動為發(fā)布到其服務(wù)中的視頻生成字幕。
坎德拉說,“我們進行過試驗——增添字幕后,視頻觀看量增長了2位數(shù)。”
與視頻字幕生成系統(tǒng)不同的是,Oculus語音識別功能是“Pull”的一個案例。
隨著應(yīng)用和游戲越來越多,Gear VR用戶要找到喜歡的內(nèi)容越來越困難。大聲說出來成為獲得具體內(nèi)容的一種方法。
Facebook還需要確保與Gear VR配套的三星智能手機也能響應(yīng)“Hey Oculus”命令。與Oculus Rift不同的是,Gear VR由配套手機提供運算能力,它本身沒有強大的運算能力。
蘋果和谷歌已經(jīng)把語音激活開關(guān)整合到手機中,現(xiàn)在Facebook也要這樣做。
菲利普表示,語音識別技術(shù)第四季度登陸Oculus時,它只支持美國英語,但團隊已經(jīng)開始為它增添更多種類的英語“方言”。
菲利普說,隨著時間推移,F(xiàn)acebook可能使Oculus語音識別技術(shù)能在線下運行。Facebook還可能最終支持英語之外的其他語言。
除此之外,F(xiàn)acebook員工并不清楚公司在語音識別技術(shù)領(lǐng)域未來的發(fā)展。
目前,F(xiàn)acebook主要業(yè)務(wù)是社區(qū)。這可能決定Facebook語音識別技術(shù)的未來發(fā)展方向。Facebook產(chǎn)品經(jīng)理默林·鄧(Merlyn Deng)說,“我們未來的語音識別技術(shù)必須與公司使命,以及我們掌握的數(shù)據(jù)相契合。