您的位置 首页 厂商

语音辨认技能的使用及开展

语音识别技术的应用及发展-语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。

  语音辨认是以语音为研讨目标,经过语音信号处理和形式辨认让机器主动辨认和了解人类口述的言语。语音辨认技能便是让机器经过辨认和了解进程把语音信号转变为相应的文本或指令的高技能。语音辨认是一门触及面很广的交叉学科,它与声学、语音学、言语学、信息理论、形式辨认理论以及神经生物学等学科都有十分亲近的联系。语音辨认技能正逐步成为核算机信息处理技能中的要害技能,语音技能的运用现已成为一个具有竞争性的新式高技能产业。

  1、语音辨认的根本原理

  语音辨认体系本质上是一种形式辨认体系,包含特征提取、形式匹配、参阅形式库等三个根本单元,它的根本结构如下图所示:

  不知道语音经过话筒变换成电信号后加在辨认体系的输入端,首要经过预处理,再依据人的语音特色树立语音模型,对输入的语音信号进行剖析,并抽取所需的特征,在此基础上树立语音辨认所需的模板。而核算机在辨认进程中要依据语音辨认的模型,将核算机中寄存的语音模板与输入的语音信号的特征进行比较,依据必定的查找和匹配战略,找出一系列最优的与输入语音匹配的模板。然后依据此模板的界说,经过查表就能够给出核算机的辨认效果。显着,这种最优的效果与特征的挑选、语音模型的好坏、模板是否精确都有直接的联系。

  2、语音辨认技能的开展前史及现状

  1952年,ATTBell实验室的Davis等人研发了第一个可十个英文数字的特定人语音增强体系一Audry体系1956年,美国普林斯顿大学RCA实验室的Olson和Belar等人研发出能10个单音节词的体系,该体系选用带通滤波器组取得的频谱参数作为语音增强特征。1959年,Fry和Denes等人测验构建音素器来4个元音和9个子音,并选用频谱剖析和形式匹配进行决议计划。这就大大进步了语音辨认的功率和精确度。从此核算机语音辨认的受到了各国科研人员的注重并开端进入语音辨认的研讨。60年代,苏联的Matin等提出了语音完毕点的端点检测,使语音辨认水平显着上升;Vintsyuk提出了动态编程,这一提法在今后的辨认中不可或缺。60年代末、70年代初的重要效果是提出了信号线性猜测编码(LPC)技能和动态时刻规整(DTW)技能,有用地处理了语音信号的特征提取和不等长语音匹配问题;一起提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音辨认技能与语音组成技能结合使人们能够脱节键盘的捆绑,取而代之的是以语音输入这样便于运用的、天然的、人性化的输入办法,它正逐步成为信息技能中人机接口的要害技能。

  3、语音辨认的办法

  现在具有代表性的语音辨认办法首要有动态时刻规整技能(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支撑向量机(SVM)等办法。

  动态时刻规整算法(Dynamic Time Warping,DTW)是在非特定人语音辨认中一种简略有用的办法,该算法依据动态规划的思想,处理了发音犬牙交错的模板匹配问题,是语音辨认技能中呈现较早、较常用的一种算法。在运用DTW算法进行语音辨认时,便是将现已预处理和分帧过的语音测验信号和参阅语音模板进行比较以获取他们之间的类似度,依照某种间隔测度得出两模板间的类似程度并挑选最佳途径。

  隐马尔可夫模型(HMM)是语音信号处理中的一种核算模型,是由Markov链演变来的,所以它是依据参数模型的核算辨认办法。因为其形式库是经过重复操练构成的与操练输出信号符合概率最大的最佳模型参数而不是预先贮存好的形式样本,且其辨认进程中运用待辨认语音序列与HMM参数之间的似然概率到达最大值所对应的最佳状况序列作为辨认输出,因此是较抱负的语音辨认模型。

  矢量量化(Vector Quantization)是一种重要的信号紧缩办法。与HMM比较,矢量量化首要适用于小词汇量、孤立词的语音辨认中。其进程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行全体量化。把矢量空间分红若干个小区域,每个小区域寻觅一个代表矢量,量化时落入小区域的矢量就用这个代表矢量替代。矢量量化器的规划便是从很多信号样本中操练出好的码书,从实践效果动身寻觅到好的失真测度界说公式,规划出最佳的矢量量化体系,用最少的查找和核算失真的运算量完成最大或许的均匀信噪比。

  在实践的运用进程中,人们还研讨了多种下降杂乱度的办法,包含无回忆的矢量量化、有回忆的矢量量化和含糊矢量量化办法。

  人工神经网络(ANN)是20世纪80年代晚期提出的一种新的语音辨认办法。其本质上是一个自适应非线性动力学体系,模仿了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强壮的分类才能和输入—输出映射才能在语音辨认中都很有吸引力。其办法是模仿人脑思想机制的工程模型,它与HMM正好相反,其分类决议计划才能和对不承认信息的描绘才能得到举世公认,但它对动态时刻信号的描绘才能尚不尽善尽美,一般MLP分类器只能处理静态形式分类问题,并不触及时刻序列的处理。虽然学者们提出了许多含反应的结构,但它们仍缺乏以描写比如语音信号这种时刻序列的动态特性。因为ANN不能很好地描绘语音信号的时刻动态特性,所以常把ANN与传统辨认办法结合,别离使用各自优点来进行语音辨认而战胜HMM和ANN各自的缺陷。近年来结合神经网络和隐含马尔可夫模型的辨认算法研讨取得了明显开展,其辨认率现已挨近隐含马尔可夫模型的辨认体系,进一步进步了语音辨认的鲁棒性和精确率。

  支撑向量机(Support vector machine)是运用核算学理论的一种新的学习机模型,选用结构危险最小化原理(Structural Risk Minimization,SRM),有用战胜了传统经历危险最小化办法的缺陷。统筹操练差错和泛化才能,在处理小样本、非线性及高维形式辨认方面有许多优胜的功用,现已被广泛地运用到形式辨认范畴。

  4、语音辨认体系的分类

  语音辨认体系能够依据对输入语音的约束加以分类。假如从说话者与辨认体系的相关性考虑,能够将辨认体系分为三类:(1)特定人语音辨认体系。仅考虑关于专人的话音进行辨认。(2)非特定人语音体系。辨认的语音与人无关,一般要用很多不同人的语音数据库对辨认体系进行学习。(3)多人的辨认体系。一般能辨认一组人的语音,或许成为特定组语音辨认体系,该体系仅要求对要辨认的那组人的语音进行操练。

  假如从说话的办法考虑,也能够将辨认体系分为三类:(1)孤立词语音辨认体系。孤立词辨认体系要求输入每个词后要中止。(2)连接词语音辨认体系。连接词输入体系要求对每个词都清楚发音,一些连音现象开端呈现。(3)接连语音辨认体系。接连语音输入是天然流利的接连语音输入,很多连音和变音会呈现。

  假如从辨认体系的词汇量巨细考虑,也能够将辨认体系分为三类:(1)小词汇量语音辨认体系。一般包含几十个词的语音辨认体系。(2)中等词汇量的语音辨认体系。一般包含几百个词到上千个词的辨认体系。(3)大词汇量语音辨认体系。一般包含几千到几万个词的语音辨认体系。跟着核算机与数字信号处理器运算才能以及辨认体系精度的进步,辨认体系依据词汇量巨细进行分类也不断进行改变。现在是中等词汇量的辨认体系,将来或许便是小词汇量的语音辨认体系。这些不同的约束也承认了语音辨认体系的困难度。

  5、语音辨认的运用

  语音辨认能够运用的范畴大致分为大五类:

  办公室或商务体系。典型的运用包含:填写数据表格、数据库办理和操控、键盘功用增强等等。

  制作业:在质量操控中,语音辨认体系能够为制作进程供给一种“不必手”、“不必眼”的检控(部件查看)。

  电信:适当广泛的一类运用在拨号电话体系上都是可行的,包含话务员帮忙服务的主动化、国际国内长途电子商务、语音呼叫分配、语音拨号、分类订购。

  医疗:这方面的首要运用是由声响来生成和修改专业的医疗陈述。

  其他:包含由语音操控和操作的游戏和玩具、协助残疾人的语音辨认体系、车辆行进中一些非要害功用的语音操控,如车载交通路况操控体系、音响体系。

  6、语音辨认体系的最新开展

  语音辨认技能开展到今日,特别是中小词汇量非特定人语音辨认体系辨认精度现已大于98%,对特定人语音辨认体系的辨认精度就更高。这些技能现已能够满意一般运用的要求。因为大规模%&&&&&%技能的开展,这些杂乱的语音辨认体系现已完全能够制成专用芯片,很多生产。在西方经济发达国家,很多的语音辨认产品现已进入市场和服务范畴。一些用户交换机、电话机、手机现已包含了语音辨认拨号功用、语音记事本、语音智能玩具等产品,一起也包含语音辨认与语音组成功用。人们能够经过电话网络用语音辨认白话对话体系查询有关的机票、旅行、银行信息。查询核算标明,多达85%以上的人对语音辨认的信息查询服务体系的功用表示满意。能够猜测,在近5年内,语音辨认体系的运用将愈加广泛,各式各样的语音辨认体系产品将不断呈现在市场上。语音辨认技能在人工邮件分拣中的效果也日益闪现,开展前景诱人。一些发达国家的邮政部分现已运用了这一体系,语音辨认技能逐步成为邮件分拣的新技能。它能够战胜手艺分拣单纯依托分拣员回忆力的缺乏,处理人员本钱过高的问题,进步邮件处理的功率和效益。就教育范畴来讲,语音辨认技能的最直接的运用便是协助用户更好地操练言语技巧。

  语音辨认技能的另一个开展分支便是电话语音辨认技能的开展,贝尔实验室是这方面的前驱,电话语音辨认技能将能够完成电话查询、主动接线以及一些专门事务如旅行信息等的操作。银行运用了语音了解技能的声讯查询体系后,可不分昼夜地为客户供给二十四小时的电话银行理财服务。而证券业方面,若是选用电话语音辨认声讯体系的话,用户想查询行情便能够直接讲出股票名称或代码,而体系承认用户的要求后,会主动读出最新的股票价,这将大大便利用户。现在在114查号台还有很多的人工服务,假如选用语音技能,就可让核算机主动接听用户的需求,然后回放查询的电话号码,然后节省了人力资源。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/changshang/168644.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部