语音识别是一门交叉学科,也被称为自动语音识别。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别技术在国际的发展
早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT&T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;
80年代和90年代是语音识别技术应用研究方向的高潮,HMM模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query(电话语音识别)引擎等。
语音识别技术在国内的发展
我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。
二十世纪末,语音识别系统已经在电脑游戏和玩具,不同乐器的控制,数据采集和听写等方面发现了广泛的应用。而在近二十年,由于人工智能和机器学习迅猛发展,语音识别技术取得显著进步,语音控制也变得更为实用,开始从实验室走向市场。
《互联网趋势》报告中曾谈及语音将是人机交互的新范式,语音技术将解放人类双手和眼睛,用户以较低的成本实现随时访问。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。未来与智能家居、可穿戴设备、机器人等交互模式,语音将是最佳人机交互模式。
近二十年,语音识别技术取得显著进步,但识别的准确性问题一直阻碍着智能语音的进一步发展。目前在实际应用中,我们看见语音识别多是在智能家居领域,比如智能家电或智能音箱。此时,我们就需要考虑一个问题了,当多个家庭成员同时讲话时,智能家电或智能音箱该执行谁的命令呢?它们又如何能在众多声音中找出自己主人的命令?这些都是当前语音识别所需要解决的问题,毕竟我们通常所说的语音识别不仅仅只是单纯的对语音内容进行识别。
随着准确性的提升,语音识别应用范围将不断拓宽,语音交互也逐渐成为可能。不过在语音识别更新迭代的过程中,新旧共存现象必可避免,在初期混乱的市场蓝海中,只有看清发展大势,方能真正抓住机遇,迎来新发展。