智能家居的入口到底是什么?在这个行业发展几年之后,业内依然没有就这个问题达成共识。最初,手机一度被认为充当了这个角色,但在大多数场景中,手机与智能家居并没有实现交互,更多的充当的是“遥控器”的功能。
语音识别技术的成熟让巨头开始探索,智能音箱成为智能家居交互入口的可能性。比如亚马逊的Echo、谷歌的Google Home、苹果的HomePod。根据eMarketer的数据显示,在今年一季度美国语音助手市场中,亚马逊Echo的市场份额达到70.6%,Google Home占到23.8%,其他厂商合计占5.6%的市场份额。
国内越来越多的公司也开启智能音箱这个品类。科大讯飞与京东曾经推出叮咚音响,借助科大讯飞的语音识别功能和京东的智能家居生态圈,用户可以通过叮咚音响实现与智能家居的交互,比如语音控制,音响也可以提供听歌、听书、听小说等互联网搜索功能。
背靠电商品台,叮咚音响去年年底发布的A3实现了语音购物功能,整个环节不需要手机等其他终端就可以完成在京东购物全流程。
阿里巴巴人工智能实验室(A.I. Labs)近日也推出自己的智能音响:天猫精灵X1,该实验室成立于2016年,负责阿里巴巴集团旗下消费级AI产品的研发。
天猫精灵内设第一代中文人机交流系统AliGenie,用户可通过其实现与智能家居的交互,并且实现语音购购物、手机充值、叫外卖、音频音乐等播放功能。
除了作为智能家居的入口,天猫精灵可以通过语音完成整个天猫和淘宝的购物流程。比如用户通过语音命令下单“一支笔”,天猫精灵会自动根据用户的购买记录或者搜索排名向用户推荐,在支付等环节中,音响需要根据用户的声纹判断是否问本人,确认将会完成支付环节,否则将会被拒绝。
这其中涉及的一个重要环节是声纹识别和声纹购。用户需要提前将自己的声音注册,并且生成声音密码,与机器绑定后,开启声纹购功能。随后在购物和支付环节中,天猫精灵会要求用户跟着念一串随机数字进行声纹校验,来确认是否为本人。后续的快递查询、到货提醒,也都可以通过音响的语音提醒功能完成。
在一个家庭中,音响的使用者不会只有一个人,因此,天猫精灵最多可以同时识别6个人的身份,面对不同的用户,提供不同的推荐、购物和搜索功能。
天猫精灵推出的前一天,百度推出无人驾驶开发者平台Apollo,在这个超过60项核心能力的平台之上,开发者可以使用其上面的语音、视频、增强现实、机器人视觉、自然语音处理等能力,创业公司用自己的数据换取对Apollo平台的使用。
同样,阿里巴巴也在推出天猫精灵的同时,推出AliGenie开发者平台,主要面向内容开发者、应用开发者、智能家居开发者和硬件生厂商。在这个平台中,开发者可以借助AliGenie输出的不同维度的能力,比如深度学习能力、自然语言处理能力、算法、知识表示和推理问答系统等,与自己的产品相结合。
人机语音交互的难点在于对于语义的理解,对于同一个问题,不同地域、不同年龄和不同习惯的人会采用不同的问答方式,对于这个问题,阿里巴巴对语义理解进行优化,比如仅天气预报就能够理解786种中文提问方式,包括北方人的儿化音、小朋友经常使用的叠字叠词、南方人某些与普通话混淆的中文表达方式等。
语义的理解和执行是智能音箱的基本能力,进化则是考验了音响的学习能力。所谓“进化”是指在第一次向音响提出超出其能力范围的问题之后,音响可以通过学习学会新知识,长时间进化后,加之声纹识别功能,音响可以成为越来越了解用户的助手。
在智能家居和AI领域看来,语音识别会成为智能家居交互的主要使用方式,但是否会使用智能音箱的方式来承载,仍然是在摸索的过程中。