基于阿里云API打造“Kim智能语音助理”

作为一家专注境外自由行的“互联网+”创业公司，我们始终在积极探索用户服务的终点在哪。当一名国内游客置身一个完全不同的语言环境时，内心或许是不安的；而境外落地服务的司机，大多数情况下是外国人，这就造成了极大的沟通困难。在这种场景下，如果车内可以通过智能设备为客人送去问候，并帮助其和司机、客服完成沟通，可以大幅提升国内游客在境外出游的舒适度。

基于此，我打算尝试一下是否能够基于阿里云制造这样一个物联网产品，毕竟对于创业公司来讲，借助阿里云的技术能力能节省不少成本。

开始尝试Kim

说话可能是我们每天做的最多的事情了，当然包括文字和交谈，所以这可能是手机触摸屏以外更“接近自然”的交互方式。

大家已经非常熟知“智能音箱”这个产品，阿里、小米等很多大厂都推出了自己的智能音箱，并与自己的业务体系深度绑定，这让我觉得很“封闭”，过于定制化、可玩性过于局限。

因此，索性我就把“Kim智能语音助理”做成开源项目，让更多的Geek能够参与进来，并且定制成自己的“私人助理”。（下图为天猫精灵X1）

基于阿里云API打造“Kim智能语音助理”

最初的Kim，仅是一个运行在树莓派、Mac上的一个能够语音对话的客户端程序，它通过调用阿里云的TTS和ASR接口实现语音合成及语音识别。

我有几张阿里云幸运券分享给你，用券购买或者升级阿里云相应产品会有特惠惊喜哦！把想要买的产品的幸运券都领走吧！快下手，马上就要抢光了。

后来在语音识别的基础上增加了“Kim大脑”，这一个关键的改进让Kim能够理解我们在说什么，并作出预设的响应。为了让这颗“大脑”能够学会更多，我专门在GitHub上维护了一个插件库。没错，我们与Kim的对话经过ASR之后会被传送到Kim的“大脑”，经过“中文语义仲裁算法”把指令交由语义匹配的插件处理。操作流程如下图所示：

基于阿里云API打造“Kim智能语音助理”

Kim是一个简化的“智能音箱”，已经能够应付大多数的对对话场景，把插件写写好，或许能够应付语音购票的场景了，下图为上海地铁的工作人员在演示语音购票技术。

基于阿里云API打造“Kim智能语音助理”

语音，只是一种交互方式，如果我们通过插件将其转换成计算机可以理解的指令，理论上我们对计算机的任何操作都可以实现。但复杂交互，还需要与计算机当前的状态有关系，我们后面会专门探讨这个问题。

原文链接

基于阿里云API打造“Kim智能语音助理”

相关推荐