您的位置 首页 观点

根据DSP的语音辨认计算器电路设计

随着电子技术的高速发展,现代普通民用计算器在保留基本的加减乘除等运算外,加入了大量如三角函数、幂函数等比较复杂的运算。但是其基本的操作没有发生变化,依然是运用手指操作,对于需要进行实时数字计算的一些特

跟着电子技能的高速开展,现代一般民用核算器在保存根本的加减乘除等运算外,加入了很多如三角函数、幂函数等比较杂乱的运算。可是其根本的操作没有发生改变,依然是运用手指操作,关于需求进行实时数字核算的一些特他人群(残疾人士)或是在一些特别场合在无法手动操作核算器的状况下,用加入了语音辨认模块的核算器来进行实时数字核算就有适当的必要。
语音辨认技能是人机最天然、最简练的沟通办法,它便是让机器可以自动辨认并了解说话人要表达的意思,将语音信号转变为正确的文本或许指令的高科技技能。依据实践的运用,语音辨认可以分为:特定人与非特定人的辨认、孤立词与接连词的辨认、中小词汇量与无限词汇量的辨认。
考虑到本钱及运用范围要素,本文中运用的是依据TMS320VC5509 DSP的非特定人、孤立词、小词汇量的语音辨认体系。经过实践测验,运用该DSP的语音辨认体系有着较高的实时性、辨认率,依据该体系的核算器对实时数字核算有较高准确性,根本能处理特别集体和特别地址运用核算器困难的状况。

1 体系硬件规划
1.1 语音辨认体系
语音辨认的根本原理框图如图l所示。语音辨认进程首要包含语音信号前处理、特征提取、形式匹配等部分。语音信号输入之后,预处理和数字化是进行语音辨认的前提条件。特征提取是进行语音信号练习和辨认必不行少的进程,本文选用的是提取每帧的Mel系数的倒谱参数作为语音信号的特征值。模板匹配算法现在有DTW算法、HMM隐马尔科夫模型、ANN人工神经网络等。本文选用HMM隐马尔科夫模型的办法,提取出的特征值存入参阅形式库中,用来匹配待辨认语音信号的特征值。匹配核算是进行语音辨认的中心部分,由待辨认人的语音经过特征提取后,与体系练习时发生的模板进行匹配,在说话人辨认中,取与待辨认语音类似度最大的模型所对应的语音作为辨认成果。

1.2 体系硬件结构
图2为体系硬件结构框图。此体系的中心器材是TI公司的TMS320VC5509定点DSP。在本体系中,它不仅是语音辨认的中心,还担任核算器的运算部分。TMS320VC5509是体系的运算处理单元,具有2个乘法器(MAC),4个累加器(ACC);40位、16位的算术逻辑单元(ALU)各一个,这大大增强了DSP的运算才能;指令字长不只单一的16位,可扩展到最高48位,数据字长16位;可经过USB接口对TMS320VC5509烧写程序而不用凭借仿真器。正是依据这些长处,挑选该器材可节约开发资金,减小电路板面积。DSP与TLV320AIC23的接口电路如图3所示。

TLV320AIC23是Tl公司的一款低本钱、低功耗的音频编解码器(CODEC),在本体系中担任收集语音信号。它与本体系相关的功用参数有:支撑8~96 kHz可调采样率;可调1~5dB的完好缓存扩大体系等。图4是TLV320AIC23的电路图。

AM29LV800B存储器又称闪存(Flash),它具有在线电擦写、低功耗、大容量等特色,其存储容量为8Mbit。上电后,DSP从外部Flash加载并履行程序代码,使体系可以脱机运转。在本体系中,它首要用来存储程序代码、语音模型、以及紧缩后的语音数据。
HY57V641620同步动态存储器(SDRAM),容量为4 M×16 bit。作为RAM的扩展,它大大增强了DSP的存储与运算才能。在体系初始化的时分,用来装载放在Flash中的声学模型。这样在语音辨认的进程中可以经过片外的SDRAM来拜访声学模型,比直接拜访Flash来获取声学模型数据要快。LCD显现器用来实时显现经过语音辨认后的数字、运算符号,并在得到需求显现终究成果的提示后显现答案。

2 体系软件规划
2.1 体系软件流程
图5为体系的软件流程。整个体系开端运转后,初始化DSP及TLV320AIC23,以使各个寄存器的初值符合要求。在体系经过TLV320A%&&&&&%23收集语音信号后,首先要进行预滤波和预加剧;接着将语音信号进行分帧;然后核算每帧信号的短时能量与短时均匀过零率,为接下来的门限判定供给依据;运用门限判定进行端点检测后,提取每帧的Mel倒谱参数(MFCC),作为该帧信号的特征值;最终,用处理后的语音信号的特征值与模板进行匹配,这一部分是体系的要点。以类似度最大的模板锁对应的语音信号为辨认成果。依据辨认的成果在显现器上显现数字和运算符号,由运算规矩得出成果并显现。

2.2 前处理
前处理是对语音信号采样、A/D转化、预滤波和预加剧、分帧等。以8 kHz和16位的采样频率收集的语音模拟信号。本体系运用带通滤波器来滤波,上截频率为3.4 kHz。下截频率为60 Hz。由于语音信号具有极强的相关性,因而,分帧时要考虑帧重复的问题。本文将语音信号以256个采样点为一帧,两顿之间的重复点数为80,经过一个一阶的滤波器H(z)=1-a/z对收集的信号进行处理。
端点检测便是从说话人的语音指令中,检测出孤立词的语音开端和完毕的始点。端点检测是语音辨认进程的一个重要环节,只要将孤立词从说话人的背景噪声平分割出来,才可以进一步进行语音辨认作业。本文选用短时能量和过零率检测端点。语音信号的短时能量剖析给出了反响其起伏改变的一个适宜描绘办法。
短时过零率,即指每帧内信号经过零值的次数,可以在必定程度上反映信号的频谱特性。一帧语音信号内短时均匀过零率界说为:

用短时能量参数检测完毕点,信号{x(n)}的短时能量界说为:

式中,{x(n)}为输入信号序列。
在正式端点检测开端后,短时能量与短时过零率作为门限来判定说话人指令字的开端与完毕;接连5帧语音信号超越门限值视为说话人指令字的开端,接连8帧语音信号低于门限值视为说话人指令字的完毕。
2.3 特征值提取
提取每帧的Mel倒谱参数(MFCC)为该帧信号的特征值。由倒谱特征是用于说话人个性特征和说话人辨认的最有用的特征之一,它是依据人耳模型而提出的。其提取进程如下:
1)原始语音信号S(n)经过预加剧、加窗等处理,得到每个语音帧的时域信号x(n)。然后经过离散傅里叶改换(DFT)后得到离散频谱X(k)。


式中,N表明傅里叶改换的点数。 2)将离散谱X(k)经过M个Mel频率滤波器组可得到Mel频谱并经过对数能量的处理,得到对数频谱S(n)。核算S(n)经过每一个滤波器的输出,得到M个h(m)参数。


3)对一切滤波器输出进行对数运算,再进一步进行离散余弦改换(DCT),即可得到MFCC参数。

一般在Mel滤波器的挑选中。Mel滤波器组都挑选三角形的滤波器,但也可所以其他形状,如正弦形的滤波器组等。
2.4 模板匹配(HMM算法)
本文选用隐马尔科夫模型(HMM算法)进行形式匹配。它将特征矢量作为模板,在语音辨认形式匹配时,对输人的语音与模板库中的模板进行比较,最终将类似度最高的作为输出成果。HMM算法处理由于说话人语速不同和接连说话的而带来的失真问题,还能大大削减运算时刻,进步辨认率。
隐马尔可夫模型是一个两层随机进程的核算模型,其根本随机进程是躲藏起来观测不到的,另一个随机进程则发生观测序列。关于语音辨认体系,观测序列0便是矢量量化后的成果序列,模型λ便是由练习语音得到的模板。语音的练习进程便是发生模板λ的进程,而语音的辨认进程便是求出在模板λ下,待辨认语音的成果序列0的条件概率P[O/λ]。
由α(i)和β(i)的界说可直接得到:P[O/λ]=αt(i)βt(i)。而语音的练习算规律较杂乱,现在都选用迭代的办法得到a和b的近似解,其迭代公式如:

在实践运用中,仅对词条的少数次发音进行练习的语音辨认体系。不行能对各种杂乱语境下的不同发音都有较高的辨认率。某些较陈腐的辨认算法如动态时刻曲折法,只能把单词的屡次练习发音构成多个模板,构成模板数量成倍添加,影响体系的实时性。而HMM可以对一个词的多个练习序列进行有用的交融而构成一个模板。当练习发音的数量增多时,只会构成练习进程的核算量增大。而不会使辨认进程的核算量有一点点添加,这对体系的实时性是适当有利的。

3 体系测验
针对核算器的运用特色和环境,分别在2个地址测验体系的功用。1)关闭的试验室(地址1),噪声较小,收集的信号较为杰出,缺陷是有回声。2)课间休息的教室(地址2),噪声及大,搅扰很强,信号的收集质量很差。
由于整个体系的规划是完成核算器的核算功用,因而本次的试验是在体系辨认数字和运算符号等语音后在显现器上显现数学运算公式,并在辨认出“等于”或“得出”2个词组的语音后显现出“=”和最终的核算成果。
在测验前预先收集5男5女共1 000个语音样本(内容为数字0到100,加、减、乘、除、等于和十、百、千、万等根本核算所需求的数字和运算符号读音),而且对一切样本进行练习。另外找10人(4女,6男)在各试验地址进行实时测验,每人10个,共100个未经练习的样本。用这些样本对体系进行测验,其测验成果如表1所示。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/news/guandian/226843.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部