程序员人生 网站导航

语音、音频技术的一点思考

栏目:互联网时间:2015-07-27 08:31:33

语音和图象、视频1样,是人与人之间沟通的交换方式。

语音信号处理是1门综合性的学科,它与语音学、心理学、数字信号处理、计算机科学、模式辨认等有着密切联系。

语音技术1般可以分为3大类:

 

1.人与人之间的通讯:语音增强、语音编码、语音通讯、VOIP等  

简单的说,以网络为载体,实现人与人之间的语音通讯,触及到语音前端去噪,增强,语音紧缩编码等。

     语音增强、语音去噪等, 主要解决的是前端问题,单纯的语音、音频处理技术主要利用在嵌入式方向。

     开源的像Webrtc、Speex之类。

     VOIP、语音通讯主要对网络协议等需求更多1些,VOIP和传统移动语音通讯相比,主要体现在价格上的优势,通话质量上和传统相比还是有1定差距。 现在移动运营商的收益也在逐步减低,当价格上有所调剂时,VOIP估计也很难生存了。

这1类岗位主要集中在芯片类、通讯类、语音类、嵌入式、少数互联网公司:高通、联发科、展讯、科大讯飞、华为、思科、爱立信、哈曼、创新科技、微软Skype、腾讯等。

     语音、音频编码,做标准的很少,单纯做算法的也很少。主要需求集中围绕着具体的芯片在代码和性能做底层汇编优化,1般很少能触及到算法层面的优化。

     开源的像ffmpeg 等,未来安卓平台也会像苹果1样,都支持硬解,所以这方面就业情况更窄。

     

2.语音合成:

简单的说,机器说话给人听,代替人把相干的信息绘声绘色的念出来。

主要流程:

    语音库  训练好模型

    文本分析,上下文语义分析,韵律分析,输出语音参数

    语音合成器输出

技术相对较为成熟,像HTS、Straight等,每块模块都非常重要,都需要深入研究,才能合成出高质量的语音,所以需要全部团队成员配合。

功能:由文本产生语音,解放了用户的双眼。

利用:语音合成引擎,它的优化在于大范围,任意文本组合发音,目前市场上有懒人说书、听书之类的APP。

如果是小量的语音需求,完全用录音就能够代替,本钱低。

 

3.语音辨认和理解:

简单的说,人说话,机器能够听懂,能够依照人说的内容和唆使,代替人完成相干的操作。相干的还有说话人辨认、情感辨认、语种辨认、语音测评、语义理解等。

 

行业现状:

传统的语音公司:Nuance、科大讯飞、捷通华声等。

传统的软件类公司:微软、IBM等。

互联网公司:云知声、百度等。

 

1方面语音辨认是最难的语音技术,搭建好辨认平台相对容易,有很多开源的项目,像HTK、Kaldi,但是本质进1步提高辨认率其实不简单。

它包括了许多个模块技术,门坎很高,数学功底深厚,这1类的人材更加希少。

首先,必须要准备好大量的语音库,做好训练和辨认。

其次,就算你只深入到语音辨认的某1项技术,首先必须搭建1整套辨认流程来检测实验的效果。

再者,基本上各个模块都能影响到辨认率,特别是噪声,所以也必须要熟习这些模块。

最后,还有其它技术还在等着你,中文分词、语言模型的训练和建立、和后期的自然语言处理、语义辨认、云端服务等。

 

另外一方面,目前语音辨认盈利模式还不是很明朗,所以也决定了投入这1块的人力也很稀缺。 

初期做这1块的微软和IBM基本上也不靠这个盈利,Nuance的赢利点主要在车载、医疗转录等,最后也是与苹果合作,做了款SIRI,火了1把。

国内的科大讯飞,在辨认方向盈利也很低。

http://www.huxiu.com/article/9885/1.html

该公司的营收主要依托传统业务如普通话测评、英语测评、呼唤中心、嵌入式语音导航和毛利率很低的信息工程业务。

所以“科大讯飞”、云知声开放了自己的云平台,提供免费API,给产品利用公司提高效力,下降本钱,侵占更大的市场,将语音技术融入到互联网当中,必将会有1些小语音公司或团队将会解散。

 

虽然如此,语音辨认依然是解决用户与机器交互体验性最好的方式,未来前景1片光明。

语音公司向来不依赖于员工范围,关键的是几个技术大牛,所以语音公司或部门人数比较少,令缺勿滥。

未来只有少数比较牛的团队才能生存下来,其它的都会被Kill掉。


1方面,互联网语音技术,用户肯定免费,所以未来语音公司可能向第3方公司收取费用,也就是说,语音公司是给大多数公司提供解决方案,第3方公司给报酬。因此大公司BAT都有组建自己的语音团队,不依赖第3方,效果据称不错。

另外一方面,语音技术公司未来可能会转型,不单单给第3方公司提供语音技术支持,将技术转化成产品,语音公司也将会开发直接面向用户的产品,将盈利方式多样化,所以未来利用开发的产品人员需求可能增多。


4.音乐技术:

听音识曲,放个音乐片断,能检索出歌曲的名称。

哼唱识曲:哼唱音乐片断,能检索出歌曲的名称。

这个需求主要存在于互联网音乐类软件中,目前大多数播放器都有自己的检索,其它主要依赖于音乐雷达。


从对语音、音频技术来看全部技术行业:

技术里面,掌舵好方向,提供解决方案的人材是最重要的。

技术1般依赖于团队,1个人很难撑起。

技术能细化成很多单元,每一个人精力有限,只是其中的1颗螺丝钉,只能深入1部份,了解全部全局。

不能够单纯弄技术,技术的寻求永久是无止境的。

技术更新是非常快的,特别是在开源的大趋势下,所以在年轻的时候必须淘到钱。

做技术要像医生1样,做些有积累性的技术,利用面、公司比较需求比较宽的技术,这样才会值钱。太窄的技术只会把人作死,除非是在大公司还可以换岗。

技术必须转化成产品,必须有盈利才会持久。

做技术的同时,结交各种各样的人材,多多开阔眼界,说不定,有1天,你需要他们,或他们需要你。

再感兴趣的事情,干多了也会觉得没啥意思,最后都是往钱看,特别是年龄越大的时候。

尽可能接触1些产品,能将自己的技术沉淀到产品中,开发出1个自己的产品。

 

互联网的精神是开源,最需的是创意、点子。

总而言之,技术全部产品线的1环,它是为了解决问题而存在,问题是由于用户需求在,解决需求是由于有钱在推动。

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐