ITBear旗下自媒體矩陣:

不玩VR了 電視廠商扎堆發(fā)布“智能語音”

   時間:2017-04-17 09:21:15 來源:太平洋電腦網 編輯:星輝 發(fā)表評論無障礙通道

隨著VR/AR這股熱潮逐漸冷卻之后,2017年電視圈子又火了另外一個東西——智能語音技術,還有一種說法叫做人工智能,說的樸素一點就是電視上的語音交互。雖然不是什么新鮮的概念,可是最近所有電視廠商的每一場春季發(fā)布會,幾乎都在著重的強調自家電視的智能語音技術,似巧合,又非巧合。智能語音技術為何在這個時間點在智能電視上井噴?值得我們?yōu)榇颂接懸环?/p>

智能語音的風口真來了?

投資界流行這樣一句話:投資要投“第三眼美女”,第一眼、第二眼美女交往的門檻和成本都比較高,而只有第三眼美女是屬于大眾的,對應到產品上,就是任何技術產品都要到第三代才能被大眾廣泛接受,才能長時間的存在下去。

人工智能技術從50年代的控制論與早期神經網絡,走到如今的AlphaGo、Master,現(xiàn)在正好在經歷技術發(fā)展的第三個階段。50年代末是一波高潮很多死掉了,到70年代的時候國家自然科學基金會都不支持了。80-90年代又活躍了一次,但許多認知科學家強烈反對當時很火的一個人工智能概念“物理符號系統(tǒng)假設”,認為身體是推理的必要條件,加上科研經費的削減,又死了。今天正好是第三波,理論上機遇比較大。

第三代技術應該足夠下方到消費領域,接下來我們看看各電視廠商智能語音技術具體的應用情況如何。

TCL:發(fā)布會上TCL著重演示了人工智能助手“小T”,具備感知、認知、服務、學習的三大特性。而“小T”是TCL集團與騰訊、阿里在人工智能及云服務上進行數(shù)據(jù)打通,實現(xiàn)資源共享的結晶。

長虹:推出以電視機為中心的人工智能平臺AI Center。據(jù)悉長虹除了與IBM、科大訊飛等達成合作,也與杜比、騰訊、華帝,以及清華大學、西安交大、微軟、中科院等結成“人工智能產業(yè)聯(lián)盟”。

微鯨:微鯨科技推出了微鯨智能語音電視2.0高端產品醉薄A系列,并宣布微鯨全線產品也將進入2.0時代。其與科大訊飛與美國麻省理工媒體實驗室、微軟等,分別在語音遙控、多媒體交互領域、人臉識別等方面達成了合作。

樂視:從樂視一代超級電視開始就搭載有語音功能,超級電視語音技術經歷從合作到自主研發(fā)的過程,樂視的超級語音技術,不僅包括語音識別和語義分析,其自主研發(fā)的語音合成TTS技術已全面上線。

幾乎每一個廠商都在強調對語音認知已從功能層面上升到人工智能。而且背后還有巨大的合作團隊,與知名的語音技術和人工智能平臺密切合作和研發(fā)。這種全軍出擊的局面,很難否定智能語音在電視行業(yè)的發(fā)展盛況。但盛況并不意味著技術和商業(yè)的足夠成熟。

語音識別究竟有多難?

為什么智能語音技術發(fā)展了這么長時間,還是做不到對語音和語意的精準識別呢?我們有必要先了解一下語音識別是怎么做到的。

聲音實際上是一種波紋,就像自然中的光譜一樣。如果要對聲音進行分析,就要先把聲音的這種波紋切分成很很多小片段,就好比一個視頻由很多幀畫面構成,畫面又由很多個像素點構成一樣,語音也可以切分成很多幀。所以語音識別的大概流程可以歸納為以下幾點:

采集:聲波信息分段采集

編碼:把每一單位長度的語音變成多維向量(內容信息)

訓練:從數(shù)據(jù)中學習對語音的判斷,而不是用人工的規(guī)則。 用數(shù)據(jù)庫和建立模型讓語音系統(tǒng)自我學習(如果遇到方言,需要建立獨立的一套系統(tǒng))

解碼:用訓練好的模型組合起來就可以通過判斷新的語音向量,來識別語音了。

反饋:將分析結果通過設備播放出來。

看似很簡單的一個過程,其實每一個環(huán)節(jié)都有很多難點,有很多不可控的因素存在。一方面是復雜條件下,識別率顯著下降,比如地方方言、背景噪音,還有說話語速的差異,都是不具規(guī)律性的;另一方面是語音的訓練和測試用數(shù)據(jù)的并非完全匹配,如果用人民廣播電臺的語音來訓練數(shù)據(jù)庫,那實際操作中哪有這么多廣播員呢?

這些都還只是皮毛,最重要的是人工智能對于語意的理解才是巨大的困難。就算作為人類,在沒有前后文的情況下,突然扔給你一段話,你也不見得能理解它的意思。而人工智能就更是一臉懵逼了,不同的麥克風、噪音、口音以及談話內容下,人工智能作出的反應可能都截然不同,本質上它還不具備意識,對人類的語言缺乏足夠的認知。

語音交互在電視上的實際操作過程中,還會遇到這樣一個窘境:反應速度問題。試想一下如果對電視提出一個問題,哪怕回答的結果是準確的,但是等待時間卻長達兩三秒的話,你還有欲望繼續(xù)對它說話嗎?

綜上所述,無論是語音識別算法的亟待革命、語音工程上或缺的奇跡,或者是硬件性能上的各種限制,智能語音發(fā)展到今天遠遠還談不上輕車熟路。只不過正好它遇上了這個時代,能夠忽略它的不成熟,容忍它的成長過程。因為它已經發(fā)展的足夠快了。

除了足夠智能,還需要什么?

如今的智能語音并非完美,但是在電視這個平臺上,真的需要需要那么智能嗎?

電視的用途主要是什么?搜索-點播-播控,無非就這是三點,深度整合一下在線和離線時的語音識別工具包,并及時更新,就能夠基本滿足用戶對此的需求。

但是如果把電視當做的人工智能控制中心,那電視就將會高頻率的用起來。那對智能語音的要求就要高很多了。但是有一點作為智能電視的本質屬性,是永遠不會改變的。那就是給用戶提供足夠多的內容和服務。

如果電視沒有足夠多的模塊和功能,沒有足夠多的內容和服務,用戶使用語言的動機就會缺失。如果沒能打通所有家電智能平臺,沒有統(tǒng)一控制協(xié)議,那用戶使用智能語音就會處處受限。

真正要讓用戶把智能語音功能使用起來,優(yōu)秀的語音識別技術,僅僅是其中很小的一部分,在家庭場景下的解決用戶實際問題的服務,才是根本。像很多廠商在電視上加入的人臉識別、兒童教育,配合智能語音,才能發(fā)揮語音技術在這一場景下的價值。

總結:人工智能只有在不斷交互的情形下,它才有使用的意義和進步的空間。所以在智能交互不斷更迭的物聯(lián)網時代,智能語音技術來得恰是時機。很多人把它看做是下一波風口,也并非無稽之談。只不過,一切科技的價值都是圍繞人性服務而產生,如何用智能語音連接所有家庭環(huán)境下人性的需求,才是技術研發(fā)的同時,品牌制造商們迫切需要思考的問題。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  網站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉載  |  滾動資訊  |  English Version