智能音箱硬件和软件的发展趋势[下] 智能语音技术的发展
农步祥 于 2018.05.24 13:24:21 | 源自: | 版权:原创 | 平均/总评分:08.25/33

在前篇中,我们谈到了智能音箱目前硬件产品的现状,智能音箱能不能成为下一个智能手机规模的市场?但起码目前来看,还无法成为手机那样变成和人们形影不离的生活必需品。而智能家居、语音交互方面,各类智能音箱企业所预设的靠说话控制电器、网上购物、订餐打优步等行为,是不是真的就一定比遥控器和手机操作来得方便和优越?

但要看到,智能音箱还是有许多有用的功能以及这些技术应用背后的行业发展,而且与其挂钩的产业和服务链条完整且规模已经不小,除了硬件的研发和生产,智能音箱在与人交互所涉及的语音识别、语音处理、深度学习和语音生成等,都诞生了大量的技术算法方案和服务供应商。如果一个企业无法像亚马逊、谷歌那样有雄厚的财力和庞大的开发团队,以及强大的科研实力,要迅速向市场推出一款智能音箱就离不开这些方案商的帮助,例如小米、百度、天猫推出的智能音箱就大规模地购买了成熟的现成技术方案。今天,我们就来聊聊智能音箱在软件和服务功能上的成果和局限。

语音识别

智能语音交互技术难点的第一关,就是如何正确将用户的声音准确转换成文字。除了科大讯飞以及Nuance[小爱和HomePod采用]外,还有思必驰、搜狗等提供语音识别的算法,语音识别的流程和原理可以参阅[《智能音箱硬件和软件介绍[下] 软件平台和服务端》[作者:农步祥 ] ]。

在3年前甚至更早的时期,无论中文或英文,智能语音识别技术的识别能力并不好,面对地方化的口音、方言等几乎无法处理,无论手机或音箱都存在类似问题,典型如nVIDIA的Android TV设备Shield TV,依靠遥控器或手柄的麦克风语音的识别效果并不好,但2017年后,由于越来越多的开发者参与,语音识别的准度的确有了巨大进步,现在的小米、天猫等智能音箱已经可以准确识别部分地区方言,而谷歌Google Assistant服务对各类主流语种的口音识别也有可见的进步[几乎随着每一次Android版本更新准确率大幅度上升]。而Google Home、天猫精灵等厂商还提供了开放的历史记录查看,以我个人使用经历来看,可以保证99%以上的正确率。

语言理解和深度学习

和人类不同,语言理解[NLP]是智能语音里最困难的技术部分,即使顺利将语音转换成文本,机器如何理解语意仍将是长期的技术难问题,也限制了智能音箱处理和应对能力,由于单机硬件基本上无法完成这样的工作,即使不考虑软件开发的因素,搭建一个有效的神经网络服务器集群就是一个很复杂的课题,但随着深度学习网络TensorFlow[谷歌]、Cafee2[Facebook]等技术开源后,极大简化了硬件和神经系统的组织和管理。而且TensorFlow不仅可以通过常规的CPU处理器运算,也可以利用nVIDIA的GPU、FPGA等在某些特定任务中处理能力更强的硬件参与深度学习,提高效率,一定程度上降低了后来者入行门槛。

但神经网络终究只是载体框架,好比人需要从小到大不停地接受教育,内部内容还是需要开发填充实现。在目前,主流智能音箱产品都只能以少数预设的模式进行问答,单句话内文字数量越多,音箱[实际上是云端厂商的神经网络]识别和应对能力就越差,例如,你知道什么是XXX、什么是XXX、XXX是啥这三种不同问法在所有中文智能音箱中,会得完全不一致的回答,只有一种特定问法才会激活百度百科查询,这相当于要求用户去适应智能音箱的理解方式,由于深度学习训练需要较长时间才能更新,如果在短时间内用户发现无法和音箱顺利沟通,自然会显著减少使用的兴趣和频率。

语音转换

文本转换语音[TTS]在智能音箱出现前就有很广泛的应用需求,实际上,TTS已经在机场、车站等大量需要重复播报的交通枢纽和公共场合使用。在个人电脑终端,上世纪99年代IBM就推出过PC专用的TTS软件ViaVoice,也是现在Nuance公司的核心技术来源之一。而微软Windows10系统自带的Cortana助手也已经远好于15年前的ViaVoice。目前的朗读技术已经足够让音箱模拟较为自然的语气和对话,其中最为优秀的典型就是亚马逊的Alexa,其整句和单词的发音都非常自然顺畅,在播送新闻时已经不亚于专业的播音人员。而科大讯飞的TTS技术服务也已经广泛用在国内媒体发布会、纪录片的现场、影视的配音和旁白等工作。

大多数智能音箱说话语调仍有很明显的机器感,但大体上不影响用户的理解和使用。当然,还一些智能音箱由于音质不佳,也影响了语音输出的品质。近年来国内也出现了猎户星空等中文TTS企业,为腾讯、小米、美的等企业提供中文文本语音转换技术。

总结和展望

智能音箱除了和以上的技术企业的联动,也在寻找新的使用点,而音箱最主要的功能自然就是播放音频内容了,因此音乐版权、有声书等内容用户使用频率也会较高,此时资源和音质就成了智能音箱的关键。借助联网功能,如少儿故事、诗词朗诵、作业助手等家教相关的内容也成为了国内智能音箱一个新功能发掘点,减少了家长的负担。而亚马逊则是通过开放接口的方式鼓励第三方Alexa插件[Skill]开发,但目前插件也主要是方便智能家居设备厂商自行做接入开发,或是一些定向的语音娱乐和音乐功能,尚未没有热门的现象级应用出现。

整体来说,除亚马逊外,目前智能音箱市场还未有出现第二个千万级用户规模的品牌,智能音箱市场看起来热火,但销售仍然主要通过打折、打包等优惠方式进行出售,智能音箱的功能、卖点仍处于探索当中,而传说中的语音购物、语音订餐打车等号称改变生活习惯的功能过于简陋,无法进行类似搜索、选择等语音操作,毫无实用价值,天猫和亚马逊似乎也没有半点要改进的迹象。

由于智能音箱受到近年来热门的智能语音和人工智能、物联网等新的技术亮点影像,而且即使不考虑智能音箱,智能语音的一系列技术进步,可以最终让手机等所有互联网智能设备受益。例如谷歌在Android手机上的实时语音、照片文字翻译等功能,也同样是智能语音和深度学习技术进化的体现。即使智能音箱市场表现达不到预期,无法成为下一个热门科技产品,但将更多的科技企业参与智能语音、深度学习等技术的发展,同样可以在未来深刻地影响着我们的生活。

在今年5月9日的Google I/O大会上,谷歌发布了新一代人工智能技术Duplex,其逼真的语言理解能力和自然的说话语调,已经让服务员无法察觉到是机器在和她说话,并直接帮助用户进行酒店订座等电话预约服务,而且谷歌声称已经部分通过了人工智能的图灵测试难题。毕竟,喋喋不休也是很消耗体力的,从不断让用户对音箱说话到代替用户说话和它人沟通,也算是一种解放劳动力的思路,强大的人工智能也更容易引发大家的争议和思考,如果未来的智能语音技术真的如Duplex那样将生活中的琐碎沟通演绎得那样真实自然,会给语音服务行业,甚至是我们未来的生活带来怎样的深刻变化?

请评分
1
2
3
4
5
6
7
8
9
10
分享到微博,暂时不可用
03
标题没改,好神奇,居然不一样
此帖使用G8232提交
发表于2018.05.25 08:46:25
8
116.025.041.***
116.025.041.***
发表于2018.05.25 01:55:34
6
03
被我发现了吧
此帖使用G8232提交
发表于2018.05.24 22:21:01
5
106.127.***.***
106.127.***.***
我更担心的是隐私方面的问题。
此帖使用iPhone提交
发表于2018.05.24 20:19:25
4
222.204.050.***
222.204.050.***
发表于2018.05.24 16:25:02
3
然而google仍然识别不出我说的“沈阳”始终是“沉阳”
从我买第一台nexus7的时候就是这样,头两天把手机刷了原生8.1还是这样
emmmm。。。
发表于2018.05.24 14:44:58
2
03

此帖使用Lumia 950提交
发表于2018.05.24 14:35:51
1
提示
本贴可以匿名回复 ,您现在正处在潜水状态
回复
验证码
7092 为防止广告机贴垃圾,不得已而为之
表情
正文
京ICP备11010137号 京ICP证110276号 京公网安备110114000469号