语音辨认技能原理及有用体系规划汇总

　　语音辨认是以语音为研讨目标，经过语音信号处理和形式辨认让机器自动辨认和了解人类口述的言语。语音辨认技能便是让机器经过辨认和了解进程把语音信号转变为相应的文本或指令的高技能。语音辨认是一门触及面很广的交叉学科，它与声学、语音学、言语学、信息理论、形式辨认理论以及神经生物学等学科都有十分亲近的联系。语音辨认技能正逐渐成为核算机信息处理技能中的要害技能，语音技能的运用现已成为一个具有竞争性的新式高技能产业。

　　1、语音辨认的根本原理

　　语音辨认体系本质上是一种形式辨认体系，包含特征提取、形式匹配、参阅形式库等三个根本单元，它的根本结构如下图所示：

　　不知道语音经过话筒变换成电信号后加在辨认体系的输入端，首要经过预处理，再依据人的语音特色树立语音模型，对输入的语音信号进行剖析，并抽取所需的特征，在此基础上树立语音辨认所需的模板。而核算机在辨认进程中要依据语音辨认的模型，将核算机中寄存的语音模板与输入的语音信号的特征进行比较，依据必定的查找和匹配战略，找出一系列最优的与输入语音匹配的模板。然后依据此模板的界说，经过查表就能够给出核算机的辨认作用。显着，这种最优的作用与特征的选择、语音模型的好坏、模板是否准确都有直接的联系。

　　2、语音辨认技能的开展前史及现状

　　1952年，ATTBell试验室的Davis等人研发了第一个可十个英文数字的特定人语音增强体系一Audry体系1956年，美国普林斯顿大学RCA试验室的Olson和Belar等人研宣布能10个单音节词的体系，该体系选用带通滤波器组取得的频谱参数作为语音增强特征。1959 年，Fry和Denes等人测验构建音素器来4个元音和9个子音，并选用频谱剖析和形式匹配进行决议计划。这就大大进步了语音辨认的功率和准确度。从此核算机语音辨认的受到了各国科研人员的重视并开端进入语音辨认的研讨。60年代，苏联的Matin等提出了语音完毕点的端点检测，使语音辨认水平显着上升；Vintsyuk提出了动态编程，这一提法在今后的辨认中不可或缺。60年代末、70年代初的重要作用是提出了信号线性猜测编码（LPC）技能和动态时刻规整（DTW）技能，有用地处理了语音信号的特征提取和不等长语音匹配问题；一起提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。语音辨认技术与语音组成技能结合使人们能够脱节键盘的捆绑，取而代之的是以语音输入这样便于运用的、天然的、人性化的输入办法，它正逐渐成为信息技能中人机接口的关键技能。

　　3、语音辨认的办法

　　现在具有代表性的语音辨认办法首要有动态时刻规整技能（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支撑向量机（SVM）等办法。

　　动态时刻规整算法（Dynamic Time Warping，DTW）是在非特定人语音辨认中一种简略有用的办法，该算法依据动态规划的思想，处理了发音犬牙交错的模板匹配问题，是语音辨认技能中出现较早、较常用的一种算法。在运用DTW算法进行语音辨认时，便是将现已预处理和分帧过的语音测验信号和参阅语音模板进行比较以获取他们之间的类似度，按照某种间隔测度得出两模板间的类似程度并挑选最佳途径。

　　隐马尔可夫模型（HMM）是语音信号处理中的一种核算模型，是由Markov链演变来的，所以它是依据参数模型的核算辨认办法。因为其形式库是经过重复练习构成的与练习输出信号符合概率最大的最佳模型参数而不是预先贮存好的形款式本，且其辨认进程中运用待辨认语音序列与HMM参数之间的似然概率到达最大值所对应的最佳状况序列作为辨认输出，因此是较抱负的语音辨认模型。

　　矢量量化（Vector Quantization）是一种重要的信号紧缩办法。与HMM比较，矢量量化首要适用于小词汇量、孤立词的语音辨认中。其进程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行全体量化。把矢量空间分红若干个小区域，每个小区域寻觅一个代表矢量，量化时落入小区域的矢量就用这个代表矢量替代。矢量量化器的规划便是从许多信号样本中练习出好的码书，从实践作用动身寻觅到好的失真测度界说公式，规划出最佳的矢量量化体系，用最少的查找和核算失真的运算量完结最大或许的均匀信噪比。

　　在实践的运用进程中，人们还研讨了多种下降杂乱度的办法，包含无回忆的矢量量化、有回忆的矢量量化和含糊矢量量化办法。

　　人工神经网络（ANN）是20世纪80年代晚期提出的一种新的语音辨认办法。其本质上是一个自适应非线性动力学体系，模仿了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强壮的分类才干和输入—输出映射才干在语音辨认中都很有吸引力。其办法是模仿人脑思想机制的工程模型，它与 HMM正好相反，其分类决议计划才干和对不确认信息的描绘才干得到举世公认，但它对动态时刻信号的描绘才干尚不尽善尽美，一般MLP分类器只能处理静态形式分类问题，并不触及时刻序列的处理。虽然学者们提出了许多含反应的结构，但它们仍不足以描写比如语音信号这种时刻序列的动态特性。因为ANN不能很好地描绘语音信号的时刻动态特性，所以常把ANN与传统辨认办法结合，别离运用各自优点来进行语音辨认而战胜HMM和ANN各自的缺陷。近年来结合神经网络和隐含马尔可夫模型的辨认算法研讨取得了明显开展，其辨认率现已挨近隐含马尔可夫模型的辨认体系，进一步进步了语音辨认的鲁棒性和准确率。

　　支持向量机（Support vector machine）是运用核算学理论的一种新的学习机模型，选用结构危险最小化原理（Structural Risk Minimization，SRM），有用战胜了传统经历危险最小化办法的缺陷。统筹练习差错和泛化才干，在处理小样本、非线性及高维形式辨认方面有许多优胜的功用，现已被广泛地运用到形式辨认范畴。

　　4、语音辨认体系的分类

　　语音辨认体系能够依据对输入语音的约束加以分类。假如从说话者与辨认体系的相关性考虑，能够将辨认体系分为三类：（1）特定人语音辨认体系。仅考虑关于专人的话音进行辨认。（2）非特定人语音体系。辨认的语音与人无关，一般要用许多不同人的语音数据库对辨认体系进行学习。（3）多人的辨认体系。一般能辨认一组人的语音，或许成为特定组语音辨认体系，该体系仅要求对要辨认的那组人的语音进行练习。

　　假如从说话的办法考虑，也能够将辨认体系分为三类：（1）孤立词语音辨认体系。孤立词辨认体系要求输入每个词后要中止。（2）衔接词语音辨认体系。衔接词输入体系要求对每个词都清楚发音，一些连音现象开端呈现。（3）接连语音辨认体系。接连语音输入是天然流利的接连语音输入，许多连音和变音会呈现。

　　假如从辨认体系的词汇量巨细考虑，也可以将辨认体系分为三类：（1）小词汇量语音辨认体系。一般包含几十个词的语音辨认体系。（2）中等词汇量的语音辨认体系。一般包含几百个词到上千个词的识别体系。（3）大词汇量语音辨认体系。一般包含几千到几万个词的语音辨认体系。跟着核算机与数字信号处理器运算才干以及辨认体系精度的进步，辨认体系依据词汇量巨细进行分类也不断进行改变。现在是中等词汇量的辨认体系，将来或许便是小词汇量的语音辨认体系。这些不同的约束也确认了语音辨认体系的困难度。

　　5、语音辨认的运用

　　语音辨认能够运用的范畴大致分为大五类：

　　办公室或商务体系。典型的运用包含：填写数据表格、数据库办理和操控、键盘功用增强等等。

　　制作业：在质量操控中，语音辨认体系能够为制作进程供给一种“不必手”、“不必眼”的检控（部件查看）。

　　电信：适当广泛的一类运用在拨号电话体系上都是可行的，包含话务员帮忙服务的自动化、国际国内长途电子商务、语音呼叫分配、语音拨号、分类订购。

　　医疗：这方面的首要运用是由声响来生成和批改专业的医疗陈述。

　　其他：包含由语音操控和操作的游戏和玩具、帮忙残疾人的语音辨认体系、车辆行进中一些非要害功用的语音操控，如车载交通路况操控体系、音响体系。

　　未来跟着手持设备的小型化，乃至穿戴化，各种智能眼镜，手表等层出不穷，当然找准商场突破口很重要，好的处理计划和体系规划参阅也是必不可少的。

Nuance语音辨认技能及处理计划

　　1.语音辨认概述

　　语音辨认技能，Automatic Speech Recognition，简称ASR，是一种让机器听懂人类言语的技能。言语是人类进行信息沟通的最首要、最长用、最直接的办法。语音辨认技能是完结人机对话的一项重大突破，在国外近年来开展十分迅速，其运用也逐渐得到推行。近几年逐渐遍及的IVR（自动电话应对）处理了不少简略而又重复的咨询作业，节约了不少人力，但这种按键式的语音自动应对却让客户花费许多时刻按指引来完结简略的查询，令用户倍感不便利。

　　语音辨认无疑能够处理该方面的问题。语音辨认体系的开发成功，充分发挥了核算机技能和网络技能的优势，选用先进的人机对话办法，脱节电话按键的捆绑，人们只需象往常相同对着电话简略的说出所需服务项目，即可轻松获取自动体系供给的所需信息。

语音辨认体系结构

　　2.语音辨认运用

　　Nuance公司是天然语音接口软件的佼佼者。运用天然语音接口软件，人们能够经过电话便利安全地获取信息、服务并进行买卖。每天，千千万万的人经过拨打运转Nuance公司语音辨认、言语了解和声纹辨别软件的电话，进行出游预定、股票买卖、与其它通讯媒体、企业和互联网体系进行往来等活动。 NUANCE的运用：美国航空、Bell Atlantic、Charles Schwab、家庭购物网络、Lloyds TSB、Sears、UPS 。

　　3.NUANCE语音辨认特色

　　（1）海量词汇、独立于说话者的强健辨认功用

　　Nuance体系能可靠地对多种言语进行大词汇量的辨认，并可供给辨认作用的置信度。该体系对商业上运用的许多词汇供给最准确的语音辨认技能。运用Nuance体系开发的运用程序，在商场上具有最高的准确率。生产中的运用程序经测验，准确性超越96%。

　　（2）依据主机的客户/服务机结构

　　Nuance体系依据开放式客户/服务机结构，特别为大型运用程序所需的强健性和可伸缩性而规划。呼叫者的说话由客户端搜集，而辨认和辨别处理的负载被均匀分配到网络上的多个分隔的服务器上。

　　（3）N-Best处理

　　关于有些运用程序，或许需求辨认引擎产生或许的辨认作用集，而不是一个最好的作用。Nuance体系的N-best辨认处理办法便有这个功用，它供给了或许的辨认作用列表，并按或许性从高到低摆放。

　　（4）语法概率

　　Nuance体系答应对呼叫者所讲的特定词语或短语的在语法中的概率进行指定。当被讲的词语或短语的概率可依据实践运用进行估计时，十分有用。对语法添加概率可进步辨认的准确率和速度。

　　（5）下降噪音

　　当进来的呼叫包含安稳的布景噪音时，Nuance体系经过一种机制，使辨认服务器更准确地进行辨认。辨认服务器将进来的言语进行增强，以有用地将口气、嗡嗡声、哼叫声、嘘嘘声等噪声过滤。假如适当数量的电话均含有安稳的布景噪声，比如在轿车上免提打电话时，这个机制作用较抱负。

　　4.依据辨认的运用

　　语音短信自身事务、公司电话簿、个人电话簿、智能点歌、股票查询和买卖、智能信息点播、列车时刻查询

　　（1）依据语音辨认的公司电话簿

　　公司电话薄运用描绘

　　体系能支撑多个接入号码，虚拟多个公司的总机。并依托语音辨认技能，智能转接到相应的用户。

　　流程

　　用户拨打接入码，体系依据接入码找到相应的公司数据库，一起提示用户说出相应的用户，体系依据相应的用户查询数据库，并得到该用户的号码，并告诉交换机将该号码接通。

　　公司电话簿特色

　　•体系支撑电话接入办法

　　用户可经过电话批改个人暗码，个人上班电话和非上班电话

　　•体系支撑WEB接入办法

　　• 体系办理员可批改一切信息

　　• 各公司办理员可添加，删去，批改本公司的电话信息

　　（2）依据语音辨认的点歌功用

　　功用描绘

　　用户接入体系，提示用户说出歌名，并依托语音辨认技能，查找到该歌名，并播映给用户。

　　运用流程

　　用户拨打接入码，提示用户说出歌名或歌手名，并依托语音辨认技能，查找到该歌名或歌手名，若为歌名查询数据库，得到该歌存储的途径，并播映给用户，若为歌手名，则读出该歌手的专辑，并提示用户挑选，用户挑选后，读出该专辑的歌名，并提示用户挑选，用户挑选后，给用户播映该歌曲。

依据ZigBee节点的智能家居体系语音操控规划

　　1 体系整体规划

　　体系整体结构如图1所示，首要包含依据Samsung的S3C6410渠道的网关、依据SPCE061A的语音ZigBee子节点、电器继电器操控ZigBee子节点、电器红外操控ZigBee子节点等。其间各子节点与网关之间经过星型拓扑结构进行衔接。

　　在对语音子节点进行练习之后，当语音节点收集接纳到语音操控指令时，履行语音辨认指令，经过CC2530收发模块发送相应的操控指令到网关的主节点上。主节点将接纳到操控指令经过串口上传到网关主机，主机在处理信息之后，再经过主节点发送相应的操控指令到操控子节点上，操控子节点在接纳到相应的指令之后就会履行相应的动作，对被控目标进行操控。

　　2 体系硬件规划

　　（1）网关。选用依据ARM11架构的三星S3C6410处理器，与ZigBee主节点之间经过串口办法进行通讯。S3C6410是依据ARM1176JZF-S的16/

　　（2）语音子节点。由凌阳科技的SPCE061A单片机与ZigBec收发节点模块组成。SPCE061A是凌阳科技推出的以μ’nSPTM为中心的16位结构的微操控器。具有8通道10位A/D转化输入功用，内置自动增益操控功用的麦克风输入办法以及双通道10 位DAC办法的音频输出功用。在运用SAC M_S240凌阳音频编码办法时，能够包容长达210 s的语音数据。因此被广泛运用于数字语音辨认范畴中。

　　（3）电器操控继电器子节点。由继电器模块与ZigBee收发节点组成。因为我国市电电压在220 V左右，为了完结对部分家电开关的操控，选用继电器模块，并经过ZigBee通讯模块的CC2530芯片的I/O引脚及其外围驱动电路，完结对继电器模块的吸合与开释操控。能够操控窗布、灯火等开关型电器。

　　（4）红外操控子节点。由学习型红外操控模块与ZigBee收发子节点组成。目前，红外遥控类型的家用电器的份额正逐渐攀升。因此本文在规划研讨中选用了学习型的红外操控模块，它与ZigBee收发子节点之间经过串口进行通讯。首要运用一个或多个红外模块对现有的家电（如电视机、DVD、空调、投影仪等）红外遥控器的信号进行学习，把相应的编码寄存到红外模块的存储器E2PROM 中，每条代码对应一个地址。当该

　　（5）依据CC2530的ZigBee无线收发模块。CC2530是TI公司推出的依据IEEE 802.15.4协议的片上体系。内嵌增强型单周期的8051CPU，具有8 KB的SRAM、2个支撑多种串行通讯协议的USART、21个通用的I/O引脚、宽电压规模（2～3.6 V）、低功耗（自动形式RX：24 mA;自动形式TX在1 dBm：29 mA）以及电源电量可监控等特色。在ZigBee协议栈中UART具有中止、DMA两种形式，本文规划中均选用了UART的中止形式。

　　3 体系软件规划

　　体系软件规划首要包含下位机软件与上位机软件规划。在下位机程序规划进程中有2个要害点：对数字语音信号的收集、处理与辨认;ZigBee收发模块对操控信号的接纳、发送与履行。而在上位机软件规划中，首要是依据Visual C++的串口通讯的编程。

　　上位机主程序流程图如图2所示。

　　S3C6410开发渠道具有4个UART接口，在研讨规划中，选用了芯片MAX 3232来处理ZigBee通讯模块的CC2530芯片与该开发渠道之间的串口通讯电平转化。上位机经过串口接纳语音子节点的操控指令数据，将数据处理后用文字显现操控指令，并经过与ZigBee主节点之间的串口通讯，向子节点发送操控指令数据。

　　4 试验及作用

　　4.1 实践运用举例

　　在对电动窗布进行开关操控时，首要将本体系的电器操控继电器子节点与电动窗布的开关量电机操控器相衔接，准备好硬件电路。然后，经过串口编程使上位机的 ZigBee主节点在接纳到语音子节点的窗布开关指令时，向ZigBee子节点发射窗布操控信号，然后当操控窗布的继电器子节点接纳到操控指令时，能够控制窗布履行相应的开关动作。经过如顺次说出“操控器”、“翻开”、“窗布”的指令时，语音子节点语音提示设备翻开，主机界面显现设备所在操控的状况，一起窗布翻开。

　　该语音操控智能家居体系能够完结家用电器的联动。例如，能够经过顺次说出“操控器”、“家庭影院”的语音指令。这时上位机能够依照程序设定逐渐延时：翻开红外遥控投影仪，红外遥控幕帘，封闭窗布，封闭部分灯火等来敞开家庭影院形式。让人们体会真实的家居智能化。

　　4.2 ZigBee操控节点通讯间隔测验作用

　　（1）空阔场合测验。测验条件：CC2530模块选用PCB天线，发射功率在1 mW，发射频率在2.4 GHz。测验作用：通讯间隔最远可达120 m。

　　（2）居家场合测验测验条件：同上。测验作用：因为墙体阻止，通讯间隔约在20 m。

　　4.3 语音操控红外型电视开关测验

　　在语音辨认程序规划中，为了添加语音节点所能辨认指令的条数而选用了分组法。运用红外遥控子节点对电视遥控器的开/关信号进行学习，对语音子节点进行训练完毕后，发动体系。顺次说出“操控器”、“翻开”、“电视”接连三条指令，再说出“操控器”、“封闭” “电视”接连三条指令。测验作用如表1所示。

　　5 结语

　　将具有数字语音辨认功用的SPCE061A单片机与低功耗、低成本的ZigBee技能相结合，开发了依据单芯片CC2530的ZigBee语音节点，并运用ARM11架构的开发渠道S3C6410作为网关，WinCE 6.0的操作体系，有着杰出的人机交互界面，来一起运用于智能家居体系的语音操控中，完结了对开关型及红外型家电设备的语音操控和家居智能化，完结人与家电之间的对话，便利了人们的日子，具有宽广的运用远景。

　　规划概况：依据ZigBee节点的智能家居体系语音操控规划

实时语音辨认体系在家庭监护机器人的完结

　　文中论述的是家庭监护机器人项目中语音辨认体系规划的部分，经过DSP、 DMA和ARM Cortex-A8的并行处理，运用双缓冲的办法，在嵌入式Linux上完结了依据ATK的实时语音辨认体系。文中对该体系的软硬件进行了规划。在硬件方面，给出语音辨认体系的硬件组成原理，并供给了要害部分原理图；在软件方面，提出实时语音辨认的办法，给出运用程序完结流程。最终经过真人说话来进行语音辨认试验，实时语音辨认率到达了94.67%以上，试验验证了体系的软件硬件规划的正确性。

　　1 体系规划

　　文中是家庭监护机器人项目中的语音辨认体系规划部分，规划意图是规划出一种能够辨认语音的、帮忙监护家庭举动不便利人员的机器人。为完结该语音辨认体系，规划了语音辨认体系整体结构框图，如图1所示。

　　图1 体系整体结构框图

　　1.1 硬件规划

　　文中所研讨和规划的功用，都是运用在移动机器人上的。因此体系的研讨规划需求考虑到体积小、省电、便于移动的特性，并需具有便于家庭用户操作的友爱显现界面。关于语音辨认部分，需求用到用于语音辨认算法处理的处理器、语音收集电路和语音输出电路，如图 2所示。其间语音辨认算法运算的处理器首要担任算法的运算处理，适当于机器人的大脑；语音收集电路担任收集外部的声响信号，适当于机器人的耳朵；语音输出电路担任输出言语声响，适当于机器人的嘴巴。

　　图2 体系硬件结构图

　　1.2 软件规划

　　HTK（Hidden Markov Model Toolkit）是一套专门的树立和处理隐马可夫模型（HMMs）的试验东西包，由英国剑桥大学工程系（Cambridge University Engineering Department，CUED）开发的，首要运用于语音辨认范畴，也能够运用于语音组成、字符辨认和DNA排序等研讨范畴。HTK经过剑桥大学、 Entropic公司及Microsoft公司的不断增强和改善，使其在语音辨认范畴处于国际领先水平。

　　依据HTK的言语辨认时，辨认作用适用只能显现在DOS或终端上，而且不利于将作用保存、移植或许二次开发运用。在本语音辨认体系中运用了HTK接口东西 ATK（AnApplication Toolkit for HTK）。ATK是由英国剑桥大学开发的开源语音辨认东西，是对HTK的C++多线程封装，跟HTK相同，它支撑Linux和Windows，它包含 HTK（HTKLib）、AHTK、AGram、ANGram、ADict、AHMMs、AResource、ARMan、ARec、ACode、 ASour ce、ATee、AComponent、ABuffer、APacket、Asyn、FLite（SYNLib）、ALog模块部件。

　　依据ATK的语音辨认软件运用体系的由语音信号收集模块、依据DMA的双向高速RAM存取模块、ATK语音辨认模块、体系办理模块、语音输出模块等模块组成，如图4所示。

　　图4 体系软件规划结构图

　　在软件规划中，体系办理模块首要担任体系的整体办理调度，是运用体系的调度中心；语音信号收集模块首要担任操控数据收集芯片TPS 65930;依据DMA的双向RAM存取模块首要担任完结DMA驱动及双向RAM的读写存取，运用了通道1来完结高速地把语音信号收集到的数据存储到 RAM上，并运用通道2完结高速地把RAM的数据取出来，用于语音的辨认；语音输出模块首要担任把相应的音频数据送到TPS65930，并操控TPS6 5930对接纳到的音频解码输出到功放电路，完结语音输出的功用。软件的规划流程图如图5所示。

　　图5 软件规划流程

　　2 语音辨认体系试验及作用

　　文中规划的语音辨认体系如图6所示。在试验中一共进行了3轮言语测验，每轮300句言语测验，其间 150句为家庭监护机器人需求辨认的言语，150句言语为机器人不予置理的无关言语。从试验测验作用可看出，关于辨认10个需求辨认的言语的辨认率高达94.67%以上，具有较高的辨认率，因此该语音辨认体系较好到达了家庭监护机器人运用的要求。

　　3 定论

　　文中经过DSP、DMA和ARM Cortex-A8的并行处理，运用双缓冲的办法，在嵌入式Linux上完结了依据ATK的实时语音辨认体系。该体系能够实时地完结语音辨认，具有较高辨认率，较快的呼应速度。能够运用在家庭监护机器人及其相关范畴中。

　　规划概况：实时语音辨认体系在家庭监护机器人的完结

依据语音辨认的轿车空调操控体系规划

　　现在轿车上运用的电器越来越多，驾驶员需求手动操作的电器开关也越来越多，不光添加了驾驶员的担负，还影响了行车安全。本文以 STM32F103VET6（以下简称STM32）芯片为操控中心，选用高功用LD3320语音辨认芯片，规划依据语音辨认的轿车空调操控体系。该体系可以用语音有用操控轿车空调，减轻了驾驶员的操作担负，确保行车进程中的安全。

　　1 体系硬件规划

　　运用语音辨认技能，结合各种传感器对车身表里的环境（如气温、阳光强度等）以及制冷紧缩机的状况等多种参数进行实时检测，与设定参数比较较，微操控器经过运算处理做出判别，输出相应的调理和操控信号。履行机构经过实时调整和批改，完结对车厢内空气环境全方位、多功用的调理和操控。体系的履行机构首要包含温度风门电机、形式风门电机、循环风门电机、鼓风机、紧缩机、除霜操控继电器等。图1为体系结构框图。

　　1．1 主操控器

　　主操控器为依据ARM Cortex—M3内核的32位微操控器STM32F103VET6，内置64 KB RAM、512 KBFlash，以及丰厚的增强I／O端口和联接到两条APB总线的外设，首要操控传感器模仿信号的收集、语音信号的收发和轿车空调操控信号的输出。

　　1．2 语音辨认模块

　　语音辨认芯片选用的是%&&&&&%Route公司的LD3320芯片。该芯片集成了语音辨认处理器和一些外部电路，包含A／D转化器、D／A转化器、麦克风接口、声响输出接口等。本芯片在规划上重视节能与高效，不需求外接任何的辅佐芯片（如Flash、RAM等），直接集成在现有的产品中即能够完结语音辨认功能。辨认的要害词语列表是能够恣意动态批改的。

　　2 体系软件规划

　　本体系软件规划选用C言语开发，用Keil uVision4软件进行编译。开发进程依照模块化分块进行，体系的首要模块包含语音辨认模块、语音播映模块、SD卡模块以及空调操控模块。

　　2．1 语音辨认模块

　　语音辨认模块选用中止的办法进行作业，其作业流程大致为芯片初始化、写入辨认列表、开端辨认、中止呼应并获取辨认作用。语音辨认流程如图8所示。在初始化程序里，首要完结软复位、形式设定、时钟频率设定和FIFO设定。在写入辨认列表之前，首要要读取寄存器B2的值，查看LD3320是否处于闲暇状况；然后，把辨认语音列表信息写入LD3320的05和B9寄存器中，每个辨认条目是规范普通话的汉语拼音（小写），每两个汉语拼音之间用一个空格间隔。在完成添加语音辨认列表后，设定寄存器35的值为45H。此处设定的值越大，代表麦克的音量越大，辨认间隔也越远，可是或许产生较多的误辨认；值越小代表麦克的音量越小，需求近间隔说话才干发动语音辨认功用，辨认率也高。设定寄存器37值为06H，发动语音辨认，即可开端语音辨认。假如麦克风收集到声响，不论是否辨认出正常作用，都会产生一个中止信号。进入中止函数后，首要清零寄存器29和寄存器02；然后，查看B2寄存器是否为0x21。若值为0x21，表示闲，能够检测2B的值；若为1，标明语音辨认有用果产生。寄存器BF读到数值为0x35，能够确认是一次语音辨认流程正常完毕。寄存器BA标明语音辨认有几个辨认候选作用。最终，能够读取寄存器C5，获取辨认作用。

　　2．2 语音播映模块

　　语音播映的软件规划流程包含通用初始化、MP3播映初始化、播映音量调理、开端播映声响以及中止呼应。通用初始化时，首要接连读取寄存器06，适当于激活了芯片；然后，按次序设置相关寄存器的值。MP3播映初始化时，首要要设置寄存器BD的值为02H，发动MP3播映模块；然后，向寄存器17写入 48H，激活DSP。语音播映模块的音量分为16级，用4位二进制标明，这儿需求设置寄存器8E的第2～5位的值来调理播映音量。当播映语音时，首要需求清零，开端播映方位。将寄存器1B的第3位设为1，然后履行循环。当播映条件为真时，次序将MP3数据放入寄存器01（每次1个字节），播映方位值添加 1。当寄存器 06的第3位等于0或许播映方位小于MP3文件的总长度时，就跳出循环。比及芯片播映该段后会宣布中止请求，而中止函数会不断接纳数据，直到FIFO- DA-TA装满或声响数据完毕。

　　结语

　　本文介绍了依据语音辨认的轿车空调操控体系，别离对硬件电路和软件规划进行了详细的介绍。本体系开发成本低、功用优胜，体系测验标明，本体系具有必定的运用价值，能够用于中低档轿车。

　　规划概况：依据语音辨认的轿车空调操控体系规划

依据非特定人语音辨认芯片的技能计划

　　本文运用智能语音交互芯片规划了某模仿练习器的示教与回放体系。示教体系为操作人员生动的演示规范操作流程及相应的操作现象，极大地缩短了对操作人员的培训时刻，进步了培训作用。回放体系经过记载操作练习进程中各操作人员的口令、声响强度、动作、时刻、操作现象等，待操作练习完毕后经过重演练习进程，以便操作者及时纠正自己的问题。示教体系也可了解为对规范操作练习进程的回放。该体系不需求虚拟现实技能的支撑，在小型的嵌入式体系上就能够完结。

　　1 体系原理

　　该模仿练习器由一台测控核算机和多台从设备组成。如图1所示。在此仅对一台从设备进行介绍，其硬件体系首要由测控核算机、Arduino mega2560 操控器、语音辨认单元、声强检测单元、语音组成单元、面板操控单元、仪器面板等组成。面板操控单元较为杂乱，包含多种操控电路，在模仿练习中担任该从设备在Arduinomega2560 操控器的操控下完结整个练习进程，在示教与回放体系中完结对方才操作练习操作现象的重演，其详细电路规划在此不做介绍。

　　语音辨认单元担任辨认操作人员的操作口令；声强检测单元担任检测声强壮小并以此作为判别是哪台从设备操作人员口令的依据；Arduino mega2560操控器担任监督仪器面板各元件的状况来辨认操作人员的动作，然后完结对操作练习进程的记载。各仪器的操作现象依据操作动作事前编制无需记录。在操作回放进程中，测控核算机依据所记载的数据，经过操控相应从设备的Arduino mega2560操控器重现所记载的操作进程。

　　2 单元体系规划

　　2.1 语音辨认单元规划

　　现在，语音辨认技能的开展十分迅速，依照辨认目标的类型能够分为特定人和非特定人语音辨认。特定人是指辨认目标为专门的人，非特定人是指辨认目标是针对大多数用户，一般需求收集多个人的语音进行录音和练习，经过学习，然后到达较高的辨认率。

　　本文选用的LD3320语音辨认芯片是一颗依据非特定人语音辨认（Speaker？Independent Automatic SpeechRecognition，SI？ASR）技能的芯片。该芯片上集成了高精度的A/D 和D/A 接口，不再需求外接辅佐的FLASH 和RAM，即能够完结语音辨认、声控、人机对话功用，供给了真实的单芯片语音辨认处理计划。而且，辨认的要害词语列表是能够动态批改的。其语音辨认进程如图2所示。

　　语音辨认单元选用ATmega168 作为MCU，担任操控LD3320完结一切和语音辨认相关的作业，并将辨认作用经过串口上传至Arduino mega2560 操控器。对LD3320芯片的各种操作，都必须经过寄存器的操作来完结，寄存器读写操作有2种办法（规范并行办法和串行SPI办法）。在此选用并行办法，将LD3320的数据端口与MCU的I/O口相连。其硬件衔接图如图3所示。

　　语音辨认流程选用中止办法作业，其作业流程分为初始化、写入要害词、开端辨认和呼应中止等。MCU的程序选用ARDUINO IDE编写［5］，调试完结后经过串口进行烧录，操控LD3320完结语音辨认，并将辨认作用上传至Arduino mega2560操控器。其软件流程如图4所示。

　　3 体系软件规划

　　示教与回放体系的软件规划包含测控核算机的软件规划和各从设备Arduino mega260操控器的软件规划。

　　测控核算机是整个体系的操控中心，其软件选用C#进行编写，在示教与回放体系中首要是对操作数据的记载以便依据所记载的数据对操作进程进行准确回放，需要记载的数据包含：各从设备操作人员的操作口令，操作动作，口令及动作时刻，各操作对应的操作现象。为简化记载数据，事前编制好各事情代码，记载进程只记录代码，大大进步程序功率。树立结构体如下：

　　在操作练习进程中测控核算机每隔50 ms 对下位机进行操控及轮询，并记载反应数据，在数据记载时以50 ms 为一个单位。选用定时器对时刻进行操控。在回放进程中首要比对当时时刻和所记载的时刻，当所记载的时刻与当时时刻符合时测控核算机操控下位机履行该事情，完结事情回放。

　　Arduino mega2560操控器担任接纳测控核算机的操控指令并履行指令，读取语音辨认作用，对声强数据收集和处理，操控语音组成单元进行语音组成等。Arduinomega2560 操控器选用串口中止的办法进行指令接纳。

　　只要正确接纳到指令才会履行并回传作用，若测控核算机在限制时刻内未收到回传作用则标明产生过错，测控核算机需从头发送。数据接纳流程图如图8所示。

　　4 总结

　　本文运用智能语音芯片规划了某模仿练习器的示教与回放体系，该体系不需求现在盛行的虚拟现实技能的支撑，仅在MCU 的操控下就能够运转。该体系也能够在小型的便携式设备上完结，具有杰出的运用远景。

　　规划概况：依据非特定人语音辨认芯片的技能计划

扫一扫打开手机网站

微信扫一扫关注我们

语音辨认技能原理及有用体系规划汇总

联系我们

微信扫一扫关注我们

为您推荐

揭秘多传伺服电机驱动内部结构

电动汽车的电池管理系统(BMS)技术解析

河北小漫电子新到Tadiran(塔迪兰)SL-2770电池200片

详解实时操作系统和非实时操作系统

汽车电子系统的LED大灯驱动设计

从 L1~L5 自动驾驶芯片发生了什么变化

联系我们

微信扫一扫关注我们