智能喇叭硬體和軟體介紹[下] 軟體平臺和服務端
農步祥 于 2018.02.06 04:52:55 | 源自: | 版權:原創
平均/總評分:10.00/30

所謂智能喇叭,首要條件必然是有一個智能化、自動化的人機交互系統。在上文我們介紹了一個“標準”的智能喇叭包含的硬體部分。可以看出,目前的智能喇叭本身并不需要多么強悍變態的硬體,普遍只是樹莓派的性能水準。目前最暢銷的智能喇叭是亞馬遜Alexa的系列產品,終端銷量已經達到千萬級別,這也說明了智能喇叭產品是一種可以和普通藍牙喇叭一樣大規模生產的裝置。

但是這些簡單的硬體只是驅殼,而基本的作業系統也無外乎Linux和Android等開源操系統基礎上進行針對性定制,喇叭從聽取用戶話語到做出相應的語音回復,背后是由一個龐大的云服務體系所處理的千萬列工作任務線程中的一支,智能語音涉及的知識庫過于龐大,它涵蓋了數學[高等數學的函數知識、統計學基礎]、聲學[聲學的基礎、理論和測量]、計算機學[數字語音訊號處理、編程基礎、深度學習]。今天,我們就從軟體和后臺服務角度,基于目前開放的資料和公開技術平臺簡單介紹喇叭到底是如何聽懂人話并說人話的。

自動語音識別[ASR]

語音識別是智能語音交互體系中,系統將人說的話轉換成文本文字的過程,和人類交談類似,智能喇叭的“思考”首先是如何將說話理解成對應的文字。現在的智能系統和背后的伺服器還無法判斷用戶的話到底是不是對著喇叭說的,因此需智能喇叭在待機狀態下,麥克風也會保持開機工作,但一般是通過喊特定詞語的方式。

從上一篇硬體分析文章中得知,智能喇叭首先通過麥克風和ADC模塊將聲音轉化為數字音頻訊號,但是在數字訊號生成時,為了讓識別更為快速準確,訊號首先會通過硬體或軟體DSP等方式進行以下簡單處理:

1、聲音測向:通過麥克風陣列用于識別語音資訊的主要來源方向,便于進一步進行訊號增強和降噪等處理;

2、波束形成:在各個方向的麥克風獲得的訊號經過加權、延時、求和等處理后獲得的一個有聲場空間指向性的音頻訊號,用于抑制主聲音方向以外其他聲音[包括其它方向上其他人同時在說的話];

3、語音增強:通過數字增益等方式提升語音訊號的清晰度;

4、降噪:和手機通話類似,將背景的環境噪音以及喇叭自身播放的音頻內容消除;

5,消除混響和回聲:語音資訊的聲波在室內會由于椈懇本棆炙X現多次反射后出現的混響效果,會嚴重語音識別的精度。

在經歷以上幾個前期處理步驟后轉換成的一個單聲道數字音頻訊號,就是智能喇叭接下來將要進行的就是將數字PCM數據轉換為文字的工作了。那么此時的語音訊號的特性可以參考一下Soomal各類手機的通話測評文章中常見的單聲道波形圖。

對聲音訊號的處理是一個非常復雜的分析工作,首先要將音頻逐步切分成一個個小段[每段約幾十毫秒左右],然后逐段進行分析并通過聲學特征提取成一組特征碼。對語言學來說,單字或單詞的發音由音素構成,各個語言的音素的集合構成了發音的基礎,且不同語言之間有所區別[漢語音素集一般為全部聲母和韻母,英語的常用標準音素集有39個音素],而音素還能細分成三種狀態。

將這組已經轉換成特征碼的音頻數據通過比較音素集和狀態集,將幀拼合為狀態,再將狀態拼合成音素。這個過程內容極其復雜,幀拼合成狀態、狀態拼合成音素、音素拼合成字詞的過程需要用存儲了巨大參考數據的“聲學模型”和“語言模型”進行概率的計算,而“聲學模型”的參數建立需要用大量的語音數據進行訓練,還要對付各類地區的口音差異。而語言模型則是通過海量文本的訓練得出的統計規律,讓轉換過程能正確理解特定的語義環境和上下文關聯。通過這些步驟,音頻訊號最終轉換成為了文字。由于ASR的詳細流程和工作原理過于復雜,這里便不展開敘述。

相應的,如此復雜的語音識別技術需要大量的實驗積累,能夠自研聲學模型、語言模型技術的智能喇叭廠商很少,一般會通過開源或購買專業廠商的技術服務,比較知名的有Nuance[蘋果Siri、小米等在用]、國內的思必馳等,甚至可以多種識別技術聯合共用。語音到文字的識別過程多數情況下可以通過本地運算完成,例如我們常用的各類語音輸入法就是典型的語音轉文字應用,另一個例子是科大訊飛的語音翻譯機曉譯,它可以依靠離線的神經網路數據庫實現中英日粵多種語言和方言間的相互翻譯。

另外,聲音特征識別技術除了識別語句外還有其它大量和聲頻相關的行業應用,并不局限于語音領域,其中一個比較有趣的應用案例就是哼唱曲調識別歌曲,其聲學模型主要是來自音樂的旋律特征庫,識別成功率率通常也比較高。

自然語言處理和深度學習

自然語言處理的簡寫為NLP,NLP是一個龐大的系統工程,包含了語音的識別和語音生成的部分。在智能語音交互中,NLP另一個最重要的工作是如何應對前面通過用戶語音分析出的文本內容,智能語音的智能家居控制也是目前的一個技術熱點,在理解用戶的文字含義后又要進行電器的控制。電腦如何識別人類語言的語法、語義、語境,甚至還有在不同的語言見進行翻譯,詞義的分歧,句法的模糊性和不規范的用語習慣等。如果依靠單個任務程式對逐字反復分析,效率極低,要如何盡快識別文字資訊,解決的方法涉及到一個時髦的名詞——深度學習。

動物的大腦依靠數量巨大的神經元來接收和傳遞五官的感知資訊,人的大腦內神經元數量就有140億個,而一個智能手機或智能喇叭內的處理器可以運行的線程數量遠遠達不到這個水準。而深度學習就是一個包含多個隱層的神經網路,用來解決無法用常規的計算機處理難以高效高速解決的問題。這樣,一句話、一張圖片就可以通過龐大數量的神經元并行計算更快地獲得結果。目前深度學習系統多由大型科技企業和大學實驗室進行研發,且多數為完全免費開源的項目,已經得到非常廣泛的研究和應用。大家較為熟悉的谷歌、微軟、Facebook等企業都提供了開源的深度學習系統解決方案,而目前最受歡迎、知名度最高的則是谷歌TensorFlow。

深度學習分為學習和應用兩個階段,以TensorFlow在2017年最經典的應用案例——AlphaGo來看,人工智能理解圍棋規則、學習棋譜和如何下棋等和過去的運算方式有了很大變化。盡管AlphaGo本身只是“圍棋選手”,但身后的DeepMind和TensorFlow已經可以承擔多樣化的復雜運算和判斷應用。可以說是人工智能、機器學習發展的極大進步,在AlphaGo之后,騰訊等跟進研發的圍棋人工智能的棋力也達到了職業選手的水準。

和人的學習一樣,機器的深度學習過程需要時間,而單純依靠CPU的運算并發能力已經不夠,因此目前主流的深度學習都支援nVIDIA的GPU通用運算CUDA技術,GPU架構的特殊性可以勝任超大量的并發計算,效率遠高于CPU平臺。例如,哈爾濱工業大學SCIR實驗室的NLP和深度學習的項目,典型的實驗裝置是以下這樣的硬體:

實際上用戶量較大的智能喇叭的云端伺服器也是類似的核心配置,正是由于GPU運算性能在深度學習神經網路大放異彩,也使得NVIDIA的產品重心從桌面PC變成了伺服器領域。神經網路和機器學習后所積累的數據可以很好地部分應用于神經網路計算規模相對更小的單機裝置[例如AlphaGo2的伺服器集群規模就要比1代小很多,但仍然是“集群”]。智能喇叭和智能語音的消費類產品還在起步階段,需要在線的深度運算網路進行分析運算,還無法離線使用。當然,深度學習主要目的是為了正確理解人的語言,具體的應用功能還需要進行拓展,為了方便智能家電廠商和第三方應用開發,許多智能喇叭開放了開發接口,更利于增加許多實用性或趣味性更強的小應用。

文本語音轉換[TTS]

將文本轉換到語音可以說是很常見的功能了,國內互聯網起步的早年間就有大量的電子書閱讀工具軟體。絕大多數喇叭不需要通過深度學習網路就能自行將文本轉換成語音輸出至喇叭。要做到接近人聲的流暢自然語序和斷字,尤其是文本量巨大多變的人機語音交互中,還是需要一定的技術功力,目前多數智能喇叭對于語音輸出的品質追求普遍不高,但也在逐步改善之中。例如前段時間央視播出的紀錄片《創新中國》中的旁白就采用了人工語音生成,在經過后期處理后已經達到可以接受的水準。另一個正面例子是亞馬遜的Alexa,其自動生成的語音水準就非常驚艷和逼真,遠超微軟和谷歌的產品。

總結和展望

隨著深度學習開源項目的逐步普及,其技術也越來越成熟,因此可以看到小米、阿里云等企業也推出了自己的智能喇叭產品和標準。雖然各廠家的語音識別和深度學習網路的技術原理大同小異,甚至一個廠商可以為不同的智能語音陣營提供產品[JBL、哈曼等],但作為商業產品,廠商之間的深度學習成果以及神經網路并不是互通共享的,而是處于自立門戶和競爭的狀態,另外智能家電裝置廠商對語音接入的興趣普遍不高,京東微聯的語音功能匱乏就是很好的例子。

在這個人工智能市場熱度極高的時期,即使智能喇叭并夠智能,也已經有了一定的市場影響力,根絕Canalys的統計,2017年全球智能喇叭銷量突破3000萬臺,而2018年間則是決定勝負的關鍵性階段,市場規模預計在5600萬以上,而蘋果的智能喇叭HomePod也終于在2018年初入場競爭,而比智能喇叭硬體本身更重要的是智能語音標準的成敗,各品牌也必然在積蓄實力和用戶基礎,力圖讓自己掌握在手中的技術成為未來人機語音交互的接口標準。

轉發到新浪微博 轉發到騰訊微博 RSS訂閱 收藏本文 本文代碼
請您評分 1 2 3 4 5 6 7 8 9 10
061.132.***.***
061.132.***.***
奇怪,小米的產品在國內市場占那么大體量,卻沒見數碼多評過
發表于2018.02.06 21:01:42
9
036.047.164.***
036.047.164.***
發表于2018.02.06 17:15:02
8
211.143.230.***
211.143.230.***
發表于2018.02.06 16:21:41
7
111.058.146.***
111.058.146.***
發表于2018.02.06 13:00:04
6
119.145.***.***
119.145.***.***
什么時候出2017大盤點啊
發表于2018.02.06 09:11:40
4
沒有標準,那么良莠不齊,大家無所適從,最后亂糟糟一團,等著有了標準,那么之前用戶購買的智能喇叭又變成了垃圾試驗品,又要換代。
此帖使用iPhone提交
發表于2018.02.06 08:57:06
3
113.015.***.***
113.015.***.***

此帖使用iPhone提交
發表于2018.02.06 07:31:37
2
看政府愿不愿意推
此帖使用ZUK Z2131提交
發表于2018.02.06 07:16:05
1
提示本貼可以匿名回復 ,您現在正處在潛水狀態
回復
驗證碼
2458 為防止廣告機貼垃圾,不得已而為之
表情
正文