语音辨认芯片也叫语音辨认IC,与传统的语音芯片比较,语音辨认芯片最大的特色便是能够语音辨认,它能让机器听懂人类的语音,而且能够依据指令履行各种动作,如眨眼睛、动嘴巴(智能娃娃)。除此之外,语音辨认芯片还具有高品质、高压缩率录音放音功用,可完结人机对话。
语音辨认芯片所触及的技能包含:信号处理、形式辨认、概率论和信息论、发声机理和听觉机理、人工智能等等。
语音辨认芯片的作业原理
嵌入式语音辨认体系都采用了形式匹配的原理。录入的语音信号首要通过预处理,包含语音信号的采样、反混叠滤波、语音增强,接下来是特征提取,用以从语音信号波形中提取一组或几组能够描绘语音信号特征的参数。特征提取之后的数据一般分为两个过程,第一步是体系“学习”或“练习”阶段,这一阶段的使命是构建参阅形式库,词表中每个词对应一个参阅形式,它由这个词重复发音多遍,再经特征提取和某种练习中得到。第二是“辨认”或“测验”阶段,依照必定的原则求取待测语音特征参数和语音信息与形式库中相应模板之间的失真测度,最匹配的便是辨认成果。
LD332X系列语音辨认芯片的作业原理:
LD3320供给的语音辨认技能,是依据“要害词语列表”的辨认技能:ASR(Autospeechrecognition)技能。
语音辨认芯片完结的作业便是:把通过MIC输入的声响进行频谱剖析-》提取语音特征-》和要害词语列表中的要害词语进行比照匹配-》找出得分最高的要害词语作为辨认成果输出。
语音辨认芯片能在两种状况下给出辨认成果:
1)外部送入预订时刻的语音数据后(比方5秒钟的语音数据),芯片对这些语音数据运算剖析后,给出辨认成果
2)外部送入语音数据流,语音辨认芯片通过端点检测VAD(voiceacTIvitydetecTIon)检测出用户中止说话,把用户开端说话到中止说话之间的语音数据进行运算剖析后,给出辨认成果
关于第一种状况,能够理解为设定了一个守时录音(比方为5秒钟),芯片在5秒钟后,会中止把声响送入辨认引擎,而且依据已送入引擎的语音数据核算出一个辨认成果。
关于第二种状况,需求了解VAD的作业原理:
VAD(VoiceAcTIvityDetecTIon)技能是在一段语音数据流中,判别出哪个时刻点是人声的开端,哪个时刻点是人声的完毕。判别的依据是,在布景声响的根底上有了语音发音,则视为声响的开端。然后,检测到一段持续时刻的布景音(比方600毫秒),则视为人声说话完毕。
通过VAD判别出人声说话的区域后,语音辨认芯片会把这期间的声响数据进行辨认处理后,核算出辨认成果。
需求阐明的是,除了以上两种状况外,语音辨认算法无法“自动”地判别出是否辨认出了一个成果。这是因为,在核算的过程中的任何时刻,语音辨认器都会对已送入辨认芯片的声响数据进行剖析,并依据匹配程度为辨认列表中的要害词语进行打分,最匹配的打分最高。可是,因为辨认算法不知道用户后边是否还持续说语音,所以无法“自动”地判别现已辨认出一个成果。
比方,辨认列表中有两个要害词语分别是“李晓”和“李晓明”,当用户提到“晓”这个音节时,在辨认芯片内部是“李晓”的得分最高,但此刻辨认芯片是无法给出辨认成果。跟着用户说出“明”音节后,“李晓明”则成为得分最高。此刻,用户中止说话,或者是守时录音已到,使得辨认芯片能够判别出用户现已中止说话了,才干给出辨认成果是“李晓明”。
语音辨认芯片的分类
依照运用者的约束而言,语音辨认芯片能够分为特定人语音辨认芯片和非特定人语音辨认芯片。
特定人语音辨认芯片
特定人语音辨认芯片是针对指定人的语音辨认,其他人的话不辨认,须先把运用者的语音参阅样本存入当成比对的资料库,即特定人语音辨认在运用前必需求进行语音练习,一般依照机器提示练习2遍语音词条即可运用。
非特定人语音辨认芯片
非特定人语音辨认是不必针对指定的人的辨认技能,不分年纪、性别,只要说相同言语就能够,使用形式是在产品定型前依照确认的十几个语音交互词条,收集200人左右的声响样本,通过PC算法处理得到交互词条的语音模型和特征数据库,然后烧录到芯片上。使用这种芯片的机器(智能娃娃、电子宠物、儿童电脑)就具有交互功用了。
非特定人语音辨认使用有的是依据音素的算法,这种形式下不需求收集很多人的声响样本就能够做交互辨认,可是缺陷是辨认率不高,辨认功能不稳定。
依照说话方法的接连性,语音辨认芯片又可分为非接连语音辨认和接连语音辨认。
非接连语音辨认芯片
关于非接连语音来说,辨认所说的每一个字有必要分隔辨认,要求说完每个字后都要中止。
接连语音辨认芯片
接连语音辨认能够一般天然流利的说话方法来进行人性化的语音辨认,但因为关系到相连音的问题,很难到达好的辨认作用。