智能喇叭硬體和軟體的發展趨勢[下] 智能語音技術的發展
農步祥 于 2018.05.24 13:24:21 | 源自: | 版權:原創 | 平均/總評分:08.25/33

在前篇中,我們談到了智能喇叭目前硬體產品的現狀,智能喇叭能不能成為下一個智能手機規模的市場?但起碼目前來看,還無法成為手機那樣變成和人們形影不離的生活必需品。而智能家居、語音交互方面,各類智能喇叭企業所預設的靠說話控制電器、網上購物、訂餐打優步等行為,是不是真的就一定比遙控器和手機操作來得方便和優越?

但要看到,智能喇叭還是有許多有用的功能以及這些技術應用背后的行業發展,而且與其掛鉤的產業和服務鏈條完整且規模已經不小,除了硬體的研發和生產,智能喇叭在與人交互所涉及的語音識別、語音處理、深度學習和語音生成等,都誕生了大量的技術算法方案和服務供應商。如果一個企業無法像亞馬遜、谷歌那樣有雄厚的財力和龐大的開發團隊,以及強大的科研實力,要迅速向市場推出一款智能喇叭就離不開這些方案商的幫助,例如小米、百度、天貓推出的智能喇叭就大規模地購買了成熟的現成技術方案。今天,我們就來聊聊智能喇叭在軟體和服務功能上的成果和局限。

語音識別

智能語音交互技術難點的第一關,就是如何正確將用戶的聲音準確轉換成文字。除了科大訊飛以及Nuance[小愛和HomePod采用]外,還有思必馳、搜狗等提供語音識別的算法,語音識別的流程和原理可以參閱[《智能喇叭硬體和軟體介紹[下] 軟體平臺和服務端》[作者:農步祥 ] ]。

在3年前甚至更早的時期,無論中文或英文,智能語音識別技術的識別能力并不好,面對地方化的口音、方言等幾乎無法處理,無論手機或喇叭都存在類似問題,典型如nVIDIA的Android TV裝置Shield TV,依靠遙控器或手柄的麥克風語音的識別效果并不好,但2017年后,由于越來越多的開發者參與,語音識別的準度的確有了巨大進步,現在的小米、天貓等智能喇叭已經可以準確識別部分地區方言,而谷歌Google Assistant服務對各類主流語種的口音識別也有可見的進步[幾乎隨著每一次Android版本更新準確率大幅度上升]。而Google Home、天貓精靈等廠商還提供了開放的歷史記錄檢視,以我個人使用經歷來看,可以保證99%以上的正確率。

語言理解和深度學習

和人類不同,語言理解[NLP]是智能語音里最困難的技術部分,即使順利將語音轉換成文本,機器如何理解語意仍將是長期的技術難問題,也限制了智能喇叭處理和應對能力,由于單機硬體基本上無法完成這樣的工作,即使不考慮軟體開發的因素,搭建一個有效的神經網路伺服器集群就是一個很復雜的課題,但隨著深度學習網路TensorFlow[谷歌]、Cafee2[Facebook]等技術開源后,極大簡化了硬體和神經系統的組織和管理。而且TensorFlow不僅可以通過常規的CPU處理器運算,也可以利用nVIDIA的GPU、FPGA等在某些特定任務中處理能力更強的硬體參與深度學習,提高效率,一定程度上降低了后來者入行門檻。

但神經網路終究只是載體框架,好比人需要從小到大不停地接受教育,內部內容還是需要開發填充實現。在目前,主流智能喇叭產品都只能以少數預設的模式進行問答,單句話內文字數量越多,喇叭[實際上是云端廠商的神經網路]識別和應對能力就越差,例如,你知道什么是XXX、什么是XXX、XXX是啥這三種不同問法在所有中文智能喇叭中,會得完全不一致的回答,只有一種特定問法才會激活百度百科查詢,這相當于要求用戶去適應智能喇叭的理解方式,由于深度學習訓練需要較長時間才能更新,如果在短時間內用戶發現無法和喇叭順利溝通,自然會顯著減少使用的興趣和頻率。

語音轉換

文本轉換語音[TTS]在智能喇叭出現前就有很廣泛的應用需求,實際上,TTS已經在機場、車站等大量需要重復播報的交通樞紐和公共場合使用。在個人電腦終端,上世紀99年代IBM就推出過PC專用的TTS軟體ViaVoice,也是現在Nuance公司的核心技術來源之一。而微軟Windows10系統自帶的Cortana助手也已經遠好于15年前的ViaVoice。目前的朗讀技術已經足夠讓喇叭模擬較為自然的語氣和對話,其中最為優秀的典型就是亞馬遜的Alexa,其整句和單詞的發音都非常自然順暢,在播送新聞時已經不亞于專業的播音人員。而科大訊飛的TTS技術服務也已經廣泛用在國內媒體發布會、紀錄片的現場、影視的配音和旁白等工作。

大多數智能喇叭說話語調仍有很明顯的機器感,但大體上不影響用戶的理解和使用。當然,還一些智能喇叭由于音質不佳,也影響了語音輸出的品質。近年來國內也出現了獵戶星空等中文TTS企業,為騰訊、小米、美的等企業提供中文文本語音轉換技術。

總結和展望

智能喇叭除了和以上的技術企業的聯動,也在尋找新的使用點,而喇叭最主要的功能自然就是播放音頻內容了,因此音樂版權、有聲書等內容用戶使用頻率也會較高,此時資源和音質就成了智能喇叭的關鍵。借助聯網功能,如少兒故事、詩詞朗誦、作業助手等家教相關的內容也成為了國內智能喇叭一個新功能發掘點,減少了家長的負擔。而亞馬遜則是通過開放接口的方式鼓勵第三方Alexa插件[Skill]開發,但目前插件也主要是方便智能家居裝置廠商自行做接入開發,或是一些定向的語音娛樂和音樂功能,尚未沒有熱門的現象級應用出現。

整體來說,除亞馬遜外,目前智能喇叭市場還未有出現第二個千萬級用戶規模的品牌,智能喇叭市場看起來熱火,但銷售仍然主要通過打折、打包等優惠方式進行出售,智能喇叭的功能、賣點仍處于探索當中,而傳說中的語音購物、語音訂餐打車等號稱改變生活習慣的功能過于簡陋,無法進行類似搜索、選擇等語音操作,毫無實用價值,天貓和亞馬遜似乎也沒有半點要改進的跡象。

由于智能喇叭受到近年來熱門的智能語音和人工智能、物聯網等新的技術亮點影像,而且即使不考慮智能喇叭,智能語音的一系列技術進步,可以最終讓手機等所有互聯網智能裝置受益。例如谷歌在Android手機上的實時語音、照片文字翻譯等功能,也同樣是智能語音和深度學習技術進化的體現。即使智能喇叭市場表現達不到預期,無法成為下一個熱門科技產品,但將更多的科技企業參與智能語音、深度學習等技術的發展,同樣可以在未來深刻地影響著我們的生活。

在今年5月9日的Google I/O大會上,谷歌發布了新一代人工智能技術Duplex,其逼真的語言理解能力和自然的說話語調,已經讓服務員無法察覺到是機器在和她說話,并直接幫助用戶進行酒店訂座等電話預約服務,而且谷歌聲稱已經部分通過了人工智能的圖靈測試難題。畢竟,喋喋不休也是很消耗體力的,從不斷讓用戶對喇叭說話到代替用戶說話和它人溝通,也算是一種解放勞動力的思路,強大的人工智能也更容易引發大家的爭議和思考,如果未來的智能語音技術真的如Duplex那樣將生活中的瑣碎溝通演繹得那樣真實自然,會給語音服務行業,甚至是我們未來的生活帶來怎樣的深刻變化?

請評分
1
2
3
4
5
6
7
8
9
10
分享到微博,暫時不可用
03
標題沒改,好神奇,居然不一樣
此帖使用G8232提交
發表于2018.05.25 08:46:25
8
116.025.041.***
116.025.041.***
發表于2018.05.25 01:55:34
6
03
被我發現了吧
此帖使用G8232提交
發表于2018.05.24 22:21:01
5
106.127.***.***
106.127.***.***
我更擔心的是隱私方面的問題。
此帖使用iPhone提交
發表于2018.05.24 20:19:25
4
222.204.050.***
222.204.050.***
發表于2018.05.24 16:25:02
3
然而google仍然識別不出我說的“沈陽”始終是“沉陽”
從我買第一臺nexus7的時候就是這樣,頭兩天把手機刷了原生8.1還是這樣
emmmm。。。
發表于2018.05.24 14:44:58
2
03

此帖使用Lumia 950提交
發表于2018.05.24 14:35:51
1
提示
本貼可以匿名回復 ,您現在正處在潛水狀態
回復
驗證碼
4080 為防止廣告機貼垃圾,不得已而為之
表情
正文
京ICP備11010137號 京ICP證110276號 京公網安備110114000469號