ITBear旗下自媒體矩陣:

這家硅谷初創(chuàng)公司的聲音模擬技術 可能會讓配音演員失業(yè)

   時間:2016-10-08 09:02:58 來源:新浪科技編輯:星輝 發(fā)表評論無障礙通道

百度在今年4月1日用張國榮的國語聲音語料,完成了這位已逝明星的聲音“再現(xiàn)”。這項技術背后主要依托機器對自然語言的理解和處理,只要讓機器通過對聲音語料的學習,就能生成語言模型,實現(xiàn)指定人物的發(fā)音模仿。

這種聲音模擬技術目前進展迅速,而且早已不是巨頭的游戲。

新浪科技了解到,位于美國加州的初創(chuàng)企業(yè)ObEN,能夠提供迅速、準確的電音模擬技術。用戶只需要念上兩分鐘由ObEN指定的文字,他們的電音就能被模擬出來,并且被用在唱歌、朗誦、用一切可以想象到的語言做一切可能的事情。

ObEN團隊的另一項三維圖像重建技術,還能夠迅速地通過一張自拍照片為消費者建立三維人臉模型,讓虛擬世界與現(xiàn)實世界之間的距離,更進一步。

ObEN聯(lián)合創(chuàng)始人Nikhil Jain及Adam Zheng

ObEN聯(lián)合創(chuàng)始人Nikhil Jain及Adam Zheng

模擬技術給聲音帶來新可能

這項聲音模擬技術,有著許多動人的未來藍圖。

比如將家里小朋友的聲音記錄下來,而這個聲音模型,可以一直保留到他長大成人,還可以說新的內(nèi)容;比如電影在國外放映時,可以使用由明星原聲而制作的外文配音,讓他們本人的聲音也能順利“出口”;而對時尚博主們來說,別說采訪韓國、歐美明星了,就算時尚博主們進軍印度、土耳其、甚至非洲,也可以輕松用當?shù)卣Z言進行采訪。另外,人們與家人分隔兩地時,也可以通過這項技術,在各類智能設備中聽到親人熟悉的聲音。天涯若比鄰,不再是一種想象。

這些藍圖,讓ObEN已經(jīng)成功和各個行業(yè)企業(yè)達成了合作意向,其中包括與美國最大的玩具公司合作開發(fā)智能玩具,跟好萊塢最大的配音公司以及電影公司合作等等。

雖然有了以上各類可預見的藍圖,電音模擬技術,聽起來還是有些抽象。具體來說,ObEN是這樣做到給消費者的聲音提供各種使用方案的。

首先,這項業(yè)界領先的技術大大縮短了發(fā)聲模型的訓練時間。也就是說,消費者們只需要花上2-3分鐘念出指定的文字,ObEN就能通過人工智能領域的機器學習技術,制作出消費者的專屬電音模型。這就像每個人有著獨特的指紋一樣,ObEN能夠通過深度學習,獲取每個用戶的“聲紋” 。要知道,如今市面上所有的專屬發(fā)聲模型都只有少數(shù)人可以體驗,并且需要好幾天、甚至幾周的時間錄入數(shù)據(jù)。

再者,有了這個電音模型,ObEN可以做到讓消費者本人的電音,用中文、日語、韓語、乃至世界上任何一種已經(jīng)存在的語言說話、唱歌、朗誦等等,而非局限于源聲音的語言種類及用法。試想,一個完全不懂中文的美國白人,可以用他的自己的電音唱秦腔;一個中國人,也可以聽到自己唱出的寶萊塢歌曲了。

除了精進算法以外,使用這個技術的消費者們越多,ObEN的電音模型就會越逼真。

ObEN的聲音模擬技術背后,有著UCLA(加州大學洛杉磯分校)以及CalTech(加州理工學院)兩所重量級院校的計算機人才們。在決定開發(fā)這個技術后,ObEN的兩位Co-founder Adam Zheng與Nikhil Jain 邀請到了UCLA的聲學研究所所長Abeer Alwan以及CalTech的高級計算機科學家Julian Bunn合作開發(fā)。這兩位教授,以及他們的其他合作伙伴與博士生們,都為ObEN在自主研發(fā)聲音模擬技術的過程中提供了重要幫助。

聲音模擬x新銳科技

更重要的是,如今科技行業(yè)里的許多主要方向,也將因為這個技術而更進一步。

首先,各類機器人的擬人化,將因為能夠接入真實、可控的聲音模型而更加成功。一個具體的例子就是在今年的CES期間,ObEN和凱撒娛樂集團以及微信進行合作,在凱撒娛樂旗下酒店里,提供名為“Ben”的虛擬客服。住在凱撒娛樂集團旗下的LINQ酒店的客人可以通過關注凱撒娛樂集團的微信號,在手機上跟Ben互動——他能夠以任何聲音或語言來進行回復。

而且,哈工大機器人集團與ObEN合作也在LINQ酒店大堂里提供了迎賓機器人,讓虛擬客服Ben“實體化”成了一個看得見摸得著的機器人,客人們可以通過與迎賓機器人的溝通,直接感受到多語言、多聲音的機器人提供的便捷服務。

ObEN與哈工大機器人集團合作,在LINQ酒店提供的迎賓機器人

ObEN與哈工大機器人集團合作,在LINQ酒店提供的迎賓機器人

再次,聲音模擬技術,將在虛擬現(xiàn)實領域有著極多發(fā)展機會。比如在虛擬教育領域,當聲音來自真實的老師、同學時,孩子們會更容易沉浸其中;再比如在虛擬醫(yī)療領域,更真實的聲音也會讓患者更加輕松。

結合三維圖像重建,重新定義虛擬世界

早在1946年,美國學者埃德加·戴爾提出的“學習金字塔”(Cone of Learning),以及多年來認知科學界的研究,都證明了當聽覺與視覺結合時,人類的理解、學習能力更強,遠遠超過只有聽覺、或只有視覺。

也正是因此,為了進一步縮短虛擬世界與真實世界之間的距離,ObEN團隊還開發(fā)了基于手機的寫真級的三維人臉重建技術。聲音與圖像緊密配合,未來的想象空間極大。

在過去十幾年間,對未來游戲的一個常見想象就是,玩家以幾近真實的相貌及聲音,在游戲世界里闖蕩。

而ObEN提供的聲音模擬及三維圖像重建技術,很可能在現(xiàn)實里第一次實現(xiàn)這種想象。

其實,三維人臉重建技術并非ObEN首創(chuàng)。在準確度上,使用深度攝像頭進行較長時間的掃描,建立的模型也必定更加真實。然而這種耗時長、需要深度攝像頭的三維重建技術,想要在消費者端普及使用,極為困難。

因此,ObEN選擇了開發(fā)只需使用手機拍攝一張照片,就能由平面照片生成三維人臉模型的技術。這項技術基于機器學習,通過大量學習二維照片與相應三維模型的關系而最終成型。當然,假如消費者們愿意多提供幾張照片,比如側(cè)面照等,也會讓ObEN最終呈現(xiàn)的三維模型更為準確。

通過ObEN技術,用創(chuàng)始人之一Nikhil Jain的2D照片完成的3D模型

通過ObEN技術,用創(chuàng)始人之一Nikhil Jain的2D照片完成的3D模型

正如上文中提到的,這項技術在虛擬現(xiàn)實/增強現(xiàn)實領域,有著極多可能性,包括教育、醫(yī)療、游戲、設計、音樂等。幾乎可以說,只要是需要人物的地方,都可能需要。這也意味著ObEN與許多虛擬現(xiàn)實行業(yè)內(nèi)的企業(yè)都有著合作可能。

比如在醫(yī)院中,相比一個卡通形象的虛擬醫(yī)生,患者自己的醫(yī)生的虛擬形象必定更受患者青睞。在VR教育領域,假如小朋友們能看見、聽見真實的同學、老師,教育效果也會好不少。最重要的是,只要消費者們使用ObEN提供的這種三維圖像重建技術,就能輕松地把社會關系導入到虛擬世界里。

這一特點,是當年QQ、微信大火的基礎,而有了ObEN,在虛擬現(xiàn)實領域的殺手級應用,我們也能有所期待了。

虛擬現(xiàn)實元年,發(fā)展空間極大

2016年是虛擬現(xiàn)實/增強現(xiàn)實(VR/AR)的元年,而ObEN的聲音模擬技術與三維圖像重建技術,很有可能成為VR/AR發(fā)展的重要助力。

近幾年,業(yè)界一致強調(diào)虛擬現(xiàn)實中3D音頻的重要性。而可以提供不同聲音、語言的ObEN,則是在3D音頻技術之外,補足了虛擬世界里聲音的“內(nèi)容”這一部分,讓虛擬世界里的聲音,更具有吸引力。

而聲音與圖像技術的結合,也是ObEN乃至VR/AR界可預見的重要方向。ObEN已經(jīng)開始自行開發(fā)應用,嘗試將兩項技術結合。他們即將推出的全新的VR/AR交友App,就是希望能夠“復制”出每個用戶的虛擬形象與聲音,這意味著不論你在線與否,都可以跟有著真實虛擬形象的其他用戶進行交流。

“我們認為在未來,每個人都需要一個與自己形象相符的虛擬世界助手,”ObEN的COO Adam Zheng說道。在VR/AR領域,這樣的虛擬世界助手可以在各方面為自己的主人服務。

據(jù)了解,ObEN已入選HTC的Vive X加速器項目, 在一千多個項目中脫穎而出,與其他32家創(chuàng)業(yè)公司共同探索虛擬現(xiàn)實領域的未來可能。據(jù)Adam透露,加速器項目中不少虛擬游戲公司已經(jīng)對ObEN的這兩項技術表達了興趣。

ObEN成立于2014年,主要創(chuàng)始人分別為COO Adam Zheng以及CEO Nikhil Jain。其中,Adam是清華大學環(huán)境工程碩士、伯克利金融工程碩士、UC Davis交通工程博士,他也是百合網(wǎng)的聯(lián)合創(chuàng)始人以及光速創(chuàng)投的投資合伙人。Nikhil Jain 擁有南加大的MBA學位,是加州地區(qū)的連續(xù)創(chuàng)業(yè)者。ObEN的首席工程師Dr. Mark Harvilla是卡耐基梅隆的電子工程學博士,曾師從Richard Stern(Apple Siri的負責人Alex Acero的導師,李開復的博士畢業(yè)論文指導教授之一)。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version