什么是语音技术及其应用?语音识别的研究意义与进展

  • 时间:
  • 浏览:1

你知道小冰吗?你呼叫过小度吗?你和小娜互动过吗?你使用过Siri吗?将会都那末,那你就out了。它们一定会当下很火爆的智能语音机器人,所以 人都和它们聊过天。

日前,美国投资机构Mangrove Capital Partners发布了2019年《语音技术报告》。报告分析了语音助理服务的日益普及,并预测苹果6手机手机6手机手机6手机手机52020年将推出Siri操作系统。那末,究竟哪几种是语音技术?它有哪几种应用?语音操作系统又是哪几种?为此,记者采访了相关专家。

哪几种是语音技术及其应用?

与图像识别、机器学习一样,智能语音是人工智能的一一五个多 分支。在人工智能异常火热的当下,从Siri到小度,从小冰到小娜,智能语音正在融入亲戚朋友的生活之中。

所谓智能语音技术,而是我研究人与计算机直接以自然语音的方式进行有效沟通的各种理论和方式,涉及语音识别、内容理解、对话问答等。一般来说,智能语音而是我利用计算机对语音信息进行自动除理和识别的技术。

“从引擎模块的层厚讲,智能语音技术包括语音前端除理(含语音增强)、语音识别、语音合成、语义理解对话管理和声纹识别等模块。其中,语音识别而是我将语音信息通过计算机自动除理转化成文字的过程,也叫语音转写,它包括语音分段、端点检测、特性提取、解码以及后除理等过程。”中国科学院声学研究所(以下简称中科院声学所)研究员赵庆卫告诉科技日报记者。

语音技术的意义及应用

目前,智能语音技术主要应用于智能家居、虚拟助手、可穿戴设备、智能车载、智能客服、智能医疗、陪伴机器人等方面。所谓虚拟助手,而是我智能语音助手,它的核心在于人类通过纯语音信息实现与机器的交互,让智能机器“助手”帮忙完成指派的任务。

在赵庆卫看来,语音操作系统是一一五个多 比较大胆的设想,基于语音的人机交互有很大的发展潜力,所以 不少互联网企业看多好你这名 方向。目前,亚马逊将会打造了一一五个多 智能语音云平台(Alexa),平台上有各种智能语音应用(8万种技能),在你这名 平台上,用户时需通过语音发出一系列指令,比如购物、搜索、听音乐、讲故事等。

智能语音技术的研究历程与进展

事实上,智能语音技术的研究起源于20世纪150年代。1952年,美国贝尔实验室制造了一台6英尺高的自动数字识别机“Audrey”,它时需识别数字0—9的发音,且准确度高达90%以上。你要 它对熟人的精准度高,而对陌生人则偏低。1958年,中科院电子所的声学研究室利用电子管实现了10个元音的识别。“将会那时计算能力很弱,智能语音不不可不可以 做某些有点儿简单的字母或数字的识别。”赵庆卫说道。

20世纪150年代到70年代初,语音识别的研究取得了一定进展。“此时,智能语音技术结束了了形成系统的框架,提出了基于线性预测编码(LPC)技术的特性提取方式和动态时间规整(DTW)技术,你要 使用模板匹配的方式做某些简单的语音识别(小词汇量、特定人、孤立词)”。

从20世纪70年代中期到150年代,语音识别的框架有了突破,统计模型逐步取代模板匹配的方式,隐含马尔科夫模型成为语音识别系统的基础模型。同時 ,也采用高斯混合模型作为声学模型的主要建模方式,连接词识别生和熟等词汇量连续语音识别得到了较大发展。

“到90年代的事先,基础的神经网络语音识别模型将会提出。但当时神经网络语音识别模型并不一定那末取得较大的突破,主而是我将会当时服务器的计算能力缺陷强以及训练语音数据的量缺陷多。”赵庆卫说,90年代时的神经网络语音识别模型那末替代传统方式,此时智能语音技术还是以隐含马尔科夫模型和高斯混合模型为基本框架。

从20世纪90年代到21世纪初,非特定人、大词汇量、连续语音识别系统的研究成为国际语音界研究方向的主流。1997年,IBM首个听写产品Via Voice问世,用户我希望对着话筒说出你要 输入的文字,系统就会自动识别并输出文字。

1502年,中科院自动化所推出了“天语”中文语音系列产品——Pattek ASR;1505年,中科院声学所推出国内第一一五个多 自主研发的电信级语音识别平台,首次实现了国产语音识别软件的规模应用,在中国移动2五个省的增值业务上线应用,所处了国内150%市场份额,使美国公司对中国语音识别市场的垄断成为历史。

层厚神经网络框架成为主流

2010年,随着服务器的计算能力大幅提高(受益于GPU的应用)和训练语音数据的大幅度增加(受益于移动互联网和云计算的发展),微软基于层厚神经网络的语音识别研究取得较大进展,“识别错误率相对下降20%以上”。此后,层厚神经网络的建模优势被某些国际和国内知名语音研究机构所验证,业界结束了了认识到基于层厚神经网络的建模框架比从前的框架识别效果明显要好,“现在亲戚朋友基本都采用了基于层厚神经网络的建模框架。”赵庆卫说道。

最近几年,基于层厚神经网络的语音识别技术也进行了持续的迭代,从基础的层厚神经网络发展到延时神经网络(TDNN)、双向长短时记忆(BLSTM)以及卷积神经网络(CNN)等;近年来,基于端到端架构(End-to-End)的语音识别系统正在被语音识别的学术界和工业界深入研究,某些系统也将会上线,中科院声学所将其最新研究成果实际应用于中国移动通信集团生和熟国电信集团的客服热线,智能技术直接服务了数以亿计的客户。

据了解,中科院声学所长期致力于语音识别核心技术研究。针对实时语音识别的需求,研究人员提出有一种基于混合神经网络(延时神经网络+输出投影门循环单元)的低延时声学建模技术,可除理长时信息,网络特性简洁,计算层厚快,易于并行化训练。该模型特性已作为有一种新型的回馈神经网络特性被国际主流语音识别开源软件Kaldi采纳。在非实时语音识别方面,提出基于BLSTM-E(双向长短时记忆扩展)的层厚神经网络特性,提升了现有主流BLSTM的性能,并除理了序列化训练条件下LSTM(长短时记忆网络)对不同长度语音输入的鲁棒性差的哪几种的疑问。

注:文章内的所有配图皆为网络转载图片,侵权即删!