云知声康恒：语音让互联网服务更贴心

栏目：互联网时间：2014-10-13 19:14:35

随着人工智能技术近年来的发展，语音识别与合成技术的成熟度已经达到了可以日用的程度，越来越多地融入了人们的日常生活。无论是在电话查询、购票等商务领域用以代替人工服务的角色，还是在计算机、电视机及移动设备上进行语音搜索、语音输入、语音音频资料文本化、程序界面的语音操控等方面，语音技术都得到了广泛的应用。在这一技术的应用中，云知声语音云由于其平台开放、可扩展性好，向普通开发者免费，因此非常易于推广和使用。在刚刚过去的第六届云计算大会上，CSDN采访了云知声的联合创始人、COO康恒。

云知声联合创始人、COO康恒

CSDN：请您介绍一下云知声语音云平台以及它当下的规模。

康恒：云知声语音云从2012年9月开始运营，主要面向开发者和第三方客户，为他们提供语音识别与理解的功能。

通过云知声语音云，开发者能够在应用程序中添加一些语音交互能力。例如，在一个机票查询应用中，用户可以直接说，“我想查一下今天晚上从北京飞往上海的飞机”。我们提供的的SDK和API应用起来很容易。不超过10行代码，就可以在应用里面添加语音交互能力，从而让用户得到便捷易用的应用程序。

云知声语音云的能力可以概括成三点：一，把用户的语音转换成文字；二，理解用户文字的真正含义和意图；三，把用户的意图转换成答案，然后通过文字、图形，或者网页、声音再把它表达出来。整个过程包括语音识别、语义理解、语音合成这三方面技术。

规模方面，云知声语音云发展到现在不到两年，日调用量已经超过一千万。考虑到我们的平台是个专业平台，这个量是比较大的。我们的用户不仅来自全国各个地区，也来自全球100多个国家和地区，而且，从这些用户的使用情况来说，反应速度和可用性都是非常好的。我们的语音云平台部署在全国各地高质量的IDC环境下，因此稳定性非常好，也能够容灾。

CSDN：语音识别技术的正确率是怎么控制的呢？

康恒：云知声的语音识别非常准确。用户说一句话时，不希望识别结果有很多错别字或者完全不正确。云知声语音识别的技术在两年的运营过程中，我们不断改进识别引擎的算法，通过线上运营中获得的用户习惯、环境、场景等数据，持续地对系统进行迭代。通过数据和算法的持续迭代，不断改进语音识别的性能。

云知声语音云的平均识别率已经超过95%，这是针对所有用户而言的。对于普通话比较标准的用户来说，识别率可达99%。只有在完全说的是家乡话，或者环境非常嘈杂的情况下，才会造成识别率的降低。总体来说，平均95%意味着对于大部分用户来说，可用性是非常强的。

另外一方面，通过算法和机器学习，我们屏蔽了特定类型的背景噪声，提高了识别率。并且只要有足够多的数据，在理论上还能做到乡音的识别。

CSDN：云知声怎样能够保证服务的高质量？

康恒：云知声的识别率很高，但我们还需要保证用户的可用性。如果它的系统环境不好，用户可能会遇到服务器死机之类问题。处理大量的请求时如果系统很繁忙，用户使用起来就会非常难受。为此，我们采用了语音云架构，提供一整套服务器集群来做语音识别，这样一来，即使出现个别的服务器因为软硬件故障出现宕机，也不会影响最终用户得到的服务。我们还有非常好的动态负载均衡技术，可以保证每个地区的用户直接访问一台最近、最快的服务器，保证最终的用户体验。我们提供了大规模的服务的集群，能容纳每天数千万次的调用，并且随时可以扩展。

CSDN：为了方便开发者，云知声提供了永久免费的开放云平台。这种永久免费的开放平台和收费服务相比有哪些区别？云知声的盈利模式是怎样的？

康恒：免费提供开放云平台是我们运营模式的选择。从服务质量和核心的服务内容来说是没有任何差别的。为什么我们要用免费的方式来运作语音云，而不是像其它供应商那样通过收费的方式运营呢？是因为我们考虑到以下几点：

第一，语音行业目前在发展期，我们希望降低其使用门槛，让越来越多的开发者和用户意识到这个技术正在走进他们的生活，而不会因为价格或者其它资源的限制，让他们对语音技术的使用有所顾虑。

第二，从语音技术的使用场景来说，我们更希望把语音技术和移动互联网应用场景结合起来。移动互联网的环境除了手机之外，还包括智能终端、车载、可穿戴、智能家具等各种各样的领域。除了我们常见的触摸之外，语音是非常自然的操作方式。只有跟这些移动互联网技术结合起来，语音技术才能发挥它应该发挥的能力，所以我们希望通过免费的运营模式来推广语音技术。

移动互联网的商业模式不一定是收费的。我们可以通过其他方式来获得对语音云的成本的投入。我们希望运营模式能够互联网化，而不是像传统的模式那样收取语音费用。

第三，语音云也有大量的付费用户，付费的用户和免费的用户相比，其服务质量和核心服务内容是没有差别的。为什么有大量的用户愿意付费使用呢？主要是因为我们的增值业务，如影视剧的搜索、地图的导航、音乐的搜索、医疗领域等。同时又有一些不在这些服务领域里的用户，他希望也使用我们的开放语音云，我们就可能就需要帮助用户来进行定制。一方面是针对他们的特定业务来提升他们语音识别的准确程度，二是这些行业的用户也有可能会有接入方面的要求或者接口方面的要求。

我们针对用户这部分特殊的需求进行收费，满足他们，帮助他们更好地接入我们的语音云平台，他们就能获得这部分增值的业务。

总体而言，我们的盈利模式如下：

第一，刚才提到公有云增值服务，我们对特殊的用户提供对应的领域优化，收取服务费用。

第二，针对一些特定的客户，给这些客户部署一些私有服务。像政府、金融机构等对于数据的使用是非常敏感的，所以，它们可能并不直接使用我们的公有服务，而是由我们把服务部署在客户那里，并向它们收取授权费。

第三，针对特定的行业开发整体的解决方案。比如针对客服中心这个领域，我们推出了智能语音导航服务和智能客服。比方说用户直接拨打电话，说，“我想查我这个月的信用卡帐单”，通过语音他就直接获得了他的帐单信息，而不需要像传统的方式通过按键听提示，周期非常长而且也不一定真正找到自己想要的服务。通过我们智能语音导航，非常自然、非常方便地直达他要的服务。

智能客服的背景是，客户服务会占用大量的人力资源来处理业务。我们的智能客服用语音识别、自然语音理解、语音合成这样的技术，自动回答客户的问题，自动处理客户业务的请求，包括订单等业务。这样整体的解决方案，对于我们来说都是有成熟的客户和应用案例的，这也是一项重要的收入来源。

未来通过开放的语音云，还可以做大量的数据业务，比如说通过大量语音云用户获得用户的一些使用习惯、年龄、性别、使用地点、习惯，这些信息。最直接的例子是，它可以帮助我们的广告用户提升广告推送的准确程度。比如如果有一个手机厂商，他主打的是30--40岁之间的、有一定支付能力的、有一定的欣赏品位的、可能是男性或者女性的用户，他推送广告的时候要获取用户，就可以直接从我们的语音云平台上得到这一目标人群，这也是未来很大的价值。云和大数据结合可以产生更多的化学反应，这是未来很大的方向。

CSDN：云知声目前有哪些比较大型的客户呢？

康恒：云知声到目前为止，已经有超过3000家客户和合作伙伴。传统的有通用汽车、清华同方、联想、华为、中兴等。互联网业有乐视、小米等。汽车、影视、电视、音乐、医疗等，我们生活中涉及的方方面面都用到我们的服务，这是我们客户的大概情况。

CSDN：我们刚才谈到的是跟用户之间的关系，那我们和开发者之间又是什么样的关系？

康恒：云知声的开放平台，承担了开发者和最终用户之间的桥梁，我们帮助开发者形成一个人机交互的中间层，这个中间层负责把用户的自然语音翻译成对应的意图，然后交给应用开发者，应用开发者获得这样的意图之后，处理请求，再交给我们的语音交互层，以一种自然的方式返回给最终用户。打比方就是翻译官，翻译了用户的自然语音，把它转换成机器可以理解的指令，再相反地把机器的指令转换成自然语音，交给用户，这就是云知声的角色。

CSDN：云知声是否因为4G的出现做出一些战略调整？其中又存在者什么样的机遇？哪类型的服务可以从4G获益？

康恒：4G的出现将使得中国的移动互联网有本质的改变。移动互联网的业务是高度依赖于网络的，而第三方的统计报道得出的结论是，中国大部分用户日常使用的网络是WiFi。之所以不采用移动互联网的原因是网速问题，因为中国大部分用户都是中国移动的用户，而中国移动因为技术原因，它的3G技术并没有得到广泛普及，所以大量的移动互联网的用户还是处于2G或者2.5G这样的区间，其网速限制使得他们使用的业务出现一些限制。比如图片、音乐、视频、声音等一些业务，因为网速限制而不能得到完整的能力。

带宽对于语音的交互方式尤其重要，因为语音希望做到的就是让用户随时随地方便使用移动互联网进行交互。语音的使用，对网络会有比较高的要求。传统的移动网络不够好，限制了语音的使用，4G技术的出现则会对整个行业，包括语音行业都有很好的促进作用，让我们真正享受到随时随地使用语音交互带来的便利。

CSDN：除了云知声之外，国内还有其它许多优秀的语音云供应商，比如科大讯飞。我想请您简单介绍一下，跟竞争对手相比，云知声的核心竞争力在哪里？还存在哪些不足？

康恒：从国内来说，我们同行业有科大讯飞，国际上也有一些比较大的巨头，像Nuance，或者软件行业有Google、苹果、微软这些非常巨型的公司。

云知声目前来说虽然已经有大量的客户，但我们还是给自己定位为一个创业公司。因为相比巨头，我们规模相对较小，同时要想在语音行业获得我们的生存之地和更大发展，就要有自己的特色。可以概括为两个方面：

第一，云知声的技术特色。我们对技术方面的自信心很强，无论是客户的反馈还是和与竞争对手相比较的测试，都表明我们有很大的优势，所以技术是我们的生存之本。这是因为我们有非常好的技术团队，在语音、语义技术上都有十年以上的积累，基础技术团队里博士的比例已经超过80%，这个比例相当高。对于其它行业，博士的比例不一定非常重要，但是因为我们这个行业则要求从业经验和对技术的掌握程度都非常高，如果不是在这个行业里面有长时间的积累，是很难做出成绩来的。

除此之外，我们还有一些很不错的特色功能。例如，我们提供用户的画像，这是什么呢？在很多用户的使用过程中，我们的平台会描绘出他大概的特征，比如他是年轻人还是中老年人，他是男性还是女性等等，我们把这样的信息返回给开发者，让应用程序利用这些信息增强它的体验，针对特定的人群做特定的优化。这是我们技术方面提供的非常独特的能力。

第二，我们有着优质的服务。云知声从成立之初就被定义为一个移动互联网公司。虽然我们用语音识别这样的技术切入市场，但仍希望用移动互联网的方式去服务用户。有人说过，移动互联网的特点就是“唯快不破”。在向客户提供服务的时候，快是我们很好的特点。比如针对大型合作伙伴乐视，我们从乐视的意向开始，到对它需求的整理，到产品的开发、上市，整个过程非常短，我们大概用一个月的时间就完成了，这在其它的企业来说是完全不可想象的，这可以从一个侧面看出我们对用户服务的好和快。

CSDN：云知声和乐视的合作，帮助它解决了什么问题呢？

康恒：我们在他们的产品上提供了语音交互功能。举例来说，我们时常在电视上搜索视频。乐视背后有海量的视频库，用户在库里搜索他想看的视频。在传统的交互界面上，搜索视频是非常困难的，一般来说有两种方式：一是分类搜索，比如战争片，战争片下面有美国片，美国片下面有斯皮尔伯格导演的等等，分层分目录的方式浏览、查找。还有一种是键盘输入的方式，智能电视上会提供虚拟键盘，用摇控器输入。

这两种方式对于客户来说都是非常困难、不自然的，用户想看《甄

------分隔线----------------------------

上一篇 TCL联手Mozilla，HTML5智能电视真的要来了！

下一篇 电信级数据流量与监控系统部署案例分享

------分隔线----------------------------