您的位置 首页 厂商

语音辨认技能原理全面解析

语音识别技术原理全面解析- 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语 音信号转变为相应的文本或命令的高技术

  语音辨认是以语音为研讨目标,经过语音信号处理和形式辨认让机器自动辨认和了解人类口述的言语。语音辨认技能便是让机器经过辨认和了解进程把语 音信号转变为相应的文本或指令的高技能。语音辨认是一门触及面很广的交叉学科,它与声学、语音学、言语学、信息理论、形式辨认理论以及神经生物学等学科都 有十分亲近的联系。语音辨认技能正逐渐成为核算机信息处理技能中的要害技能,语音技能的运用现已成为一个具有竞争性的新式高技能产业。

  1、语音辨认的根本原理

  语音辨认体系本质上是一种形式辨认体系,包含特征提取、形式匹配、参阅形式库等三个根本单元,它的根本结构如下图所示:

  

  不知道语音经过话筒变换成电信号后加在辨认体系的输入端,首要经过预处理,再依据人的语音特色树立语音模型,对输入的语音信号进行剖析,并抽取所需的特 征,在此基础上树立语音辨认所需的模板。而核算机在辨认进程中要依据语音辨认的模型,将核算机中寄存的语音模板与输入的语音信号的特征进行比较,依据必定 的查找和匹配战略,找出一系列最优的与输入语音匹配的模板。然后依据此模板的界说,经过查表就能够给出核算机的辨认效果。明显,这种最优的效果与特征的选 择、语音模型的好坏、模板是否精确都有直接的联系。

  2、语音辨认技能的开展前史及现状

  1952年,ATTBell实验室的Davis等人研发了第一个可十个英文数字的特定人语音增强体系一Audry体系1956年,美国普林斯 顿大学RCA实验室的Olson和Belar等人研发出能10个单音节词的体系,该体系选用带通滤波器组取得的频谱参数作为语音增强特征。1959 年,Fry和Denes等人测验构建音素器来4个元音和9个子音,并选用频谱剖析和形式匹配进行决议计划。这就大大进步了语音辨认的功率和精确度。

  从此核算机 语音辨认的受到了各国科研人员的注重并开端进入语音辨认的研讨。60年代,苏联的Matin等提出了语音完毕点的端点检测,使语音辨认水平明显上 升;Vintsyuk提出了动态编程,这一提法在今后的辨认中不可或缺。

  60年代末、70年代初的重要效果是提出了信号线性猜测编码(LPC)技能和动态 时刻规整(DTW)技能,有用地处理了语音信号的特征提取和不等长语音匹配问题;一起提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音辨认技 术与语音组成技能结合使人们能够脱节键盘的捆绑,取而代之的是以语音输入这样便于运用的、天然的、人性化的输入办法,它正逐渐成为信息技能中人机接口的关 键技能。

  3、语音辨认的办法

  现在具有代表性的语音辨认办法首要有动态时刻规整技能(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支撑向量机(SVM)等办法。

  动态时刻规整算法(Dynamic Time Warping,DTW)是在非特定人语音辨认中一种简略有用的办法,该算法依据动态规划的思想,处理了发音犬牙交错的模板匹配问题,是语音辨认技能中出 现较早、较常用的一种算法。在运用DTW算法进行语音辨认时,便是将现已预处理和分帧过的语音测验信号和参阅语音模板进行比较以获取他们之间的类似度,按 照某种间隔测度得出两模板间的类似程度并挑选最佳途径。

  隐马尔可夫模型(HMM)是语音信号处理中的一种核算模型,是由Markov链 演变来的,所以它是依据参数模型的核算辨认办法。因为其形式库是经过重复练习构成的与练习输出信号符合概率最大的最佳模型参数而不是预先贮存好的形款式 本,且其辨认进程中运用待辨认语音序列与HMM参数之间的似然概率到达最大值所对应的最佳状况序列作为辨认输出,因此是较抱负的语音辨认模型。

  矢量量化(Vector Quantization)是一种重要的信号紧缩办法。与HMM比较,矢量量化首要适用于小词汇量、孤立词的语音辨认中。其进程是将若干个语音信号波形或 特征参数的标量数据组成一个矢量在多维空间进行全体量化。把矢量空间分红若干个小区域,每个小区域寻觅一个代表矢量,量化时落入小区域的矢量就用这个代表 矢量替代。矢量量化器的规划便是从很多信号样本中练习出好的码书,从实践效果动身寻觅到好的失真测度界说公式,规划出最佳的矢量量化体系,用最少的查找和 核算失真的运算量完成最大或许的均匀信噪比。

  在实践的运用进程中,人们还研讨了多种下降复杂度的办法,包含无回忆的矢量量化、有回忆的矢量量化和含糊矢量量化办法。

  人工神经网络(ANN)是20世纪80年代晚期提出的一种新的语音辨认办法。其本质上是一个自适应非线性动力学体系,模仿了人类神经活动的原理,具有自 适应性、并行性、鲁棒性、容错性和学习特性,其强壮的分类才能和输入—输出映射才能在语音辨认中都很有吸引力。其办法是模仿人脑思想机制的工程模型,它与 HMM正好相反,其分类决议计划才能和对不确认信息的描绘才能得到举世公认,但它对动态时刻信号的描绘才能尚不尽善尽美,一般MLP分类器只能处理静态形式分 类问题,并不触及时刻序列的处理。虽然学者们提出了许多含反应的结构,但它们仍不足以描写比如语音信号这种时刻序列的动态特性。因为ANN不能很好地描绘 语音信号的时刻动态特性,所以常把ANN与传统辨认办法结合,别离使用各自优点来进行语音辨认而战胜HMM和ANN各自的缺陷。近年来结合神经网络和隐含 马尔可夫模型的辨认算法研讨取得了明显发展,其辨认率现已挨近隐含马尔可夫模型的辨认体系,进一步进步了语音辨认的鲁棒性和精确率。

  支撑向量机(Support vector machine)是运用核算学理论的一种新的学习机模型,选用结构危险最小化原理(Structural Risk Minimization,SRM),有用战胜了传统经历危险最小化办法的缺陷。统筹练习差错和泛化才能,在处理小样本、非线性及高维形式辨认方面有许多 优胜的功用,现已被广泛地运用到形式辨认范畴。

  4、语音辨认体系的分类

  语音辨认体系能够依据对输入语音的约束加以分类。假如从说话者与辨认体系的相关性考虑,能够将辨认体系分为三类:(1)特定人语音辨认体系。仅考虑关于专人的话音 进行辨认。(2)非特定人语音体系。辨认的语音与人无关,一般要用很多不同人的语音数据库对辨认体系进行学习。(3)多人的辨认体系。一般能辨认一组人的 语音,或许成为特定组语音辨认体系,该体系仅要求对要辨认的那组人的语音进行练习。

  假如从说话的办法考虑,也能够将辨认体系分为三类:(1)孤立词语音辨认体系。孤立词辨认体系要求输入每个词后要中止。(2)连接词语音辨认体系。连接词输入体系要求对每个词都清楚发音,一些连音现象开端 呈现。(3)接连语音辨认体系。接连语音输入是天然流利的接连语音输入,很多连音和变音会呈现。

  假如从辨认体系的词汇量巨细考虑,也可 以将辨认体系分为三类:(1)小词汇量语音辨认体系。一般包含几十个词的语音辨认体系。(2)中等词汇量的语音辨认体系。一般包含几百个词到上千个词的识 别体系。(3)大词汇量语音辨认体系。一般包含几千到几万个词的语音辨认体系。跟着核算机与数字信号处理器运算才能以及辨认体系精度的进步,辨认体系依据 词汇量巨细进行分类也不断进行改变。现在是中等词汇量的辨认体系,将来或许便是小词汇量的语音辨认体系。这些不同的约束也确认了语音辨认体系的困难度。

  5、语音辨认的运用

  语音辨认能够运用的范畴大致分为大五类:

  办公室或商务体系。典型的运用包含:填写数据表格、数据库办理和操控、键盘功用增强等等。

  制作业:在质量操控中,语音辨认体系能够为制作进程供给一种“不必手”、“不必眼”的检控(部件查看)。

  电信:适当广泛的一类运用在拨号电话体系上都是可行的,包含话务员帮忙服务的自动化、国际国内长途电子商务、语音呼叫分配、语音拨号、分类订购。

  医疗:这方面的首要运用是由声响来生成和修改专业的医疗陈述。

  其他:包含由语音操控和操作的游戏和玩具、协助残疾人的语音辨认体系、车辆行进中一些非要害功用的语音操控,如车载交通路况操控体系、音响体系。

  

  未来跟着手持设备的小型化,乃至穿戴化,各种智能眼镜,手表等层出不穷,当然找准商场突破口很重要,好的处理方案和体系规划参阅也是必不可少的。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/changshang/168407.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部