您的位置 首页 IOT

智能家庭应用之语音识别系统

智能家庭应用之语音识别系统-开发基于自然语言的语音识别系统面临许多技术挑战,包括使用精确的语音识别引擎将机器听到的内容翻译成文字—以及一个综合的自然语言处理器

  开发根据自然语言的语音辨认体系面对许多技能应战,包括运用准确的语音辨认引擎将机器听到的内容翻译成文字—以及一个归纳的自然语言处理器,它能判别所说内容的意思或意图,然后回来一个有意义的呼应或动作。这些课题现已被广泛研讨几十年了,这儿不作过多评论。本文首要评论在远场语音接口体系中经常被忽视但相同很重要的技能性应战:在语音抵达语音辨认引擎之前的语音预处理。

  即便是最现代的语音辨认引擎要想作业杰出也有一个根本的要求—输入到该引擎的有必要是语音。尽管对远场语音接口体系来说这似乎是清楚明了的要求,但它却是最具应战性的要求之一。这儿的“远场”指的是用户话音距产品麦克风的间隔超越半米的体系。举例来说,挨近用户脸部的智能手机构成的是一种“近场”用例,但对着一臂之长的PC机或平板电脑说话或隔着房间对电视机、立体声体系、灯火开关、主动调温器或智能家庭操控器说话ADC都算作“远场”用例。

  近场和远场用例之间存在着许多重要的不同,这些不同发生了在近场体系中没有但在远场体系中十分艰巨的技能性应战。

  1.大动态规模:在远场体系中,用户语音或许十分低,由于他/她与产品麦克风稀有米间隔,但搅扰或许十分大,比方在受语音操控的扬声器体系中有音乐回放的场合。

  2.低信噪比(SNR)、低直接途径与混响途径比(DRR)以及不知道方向的语音和噪声:远场体系中的语音噪声比要比近场体系中的小得多。跟着用户不断远离产品的麦克风,语音电平会越来越小,而背景噪声电平坚持不变。

  相同,从用户嘴巴到麦克风的直接途径——从沿途的墙体和窗户等外表的反射途径与从用户到麦克风的直接途径比较或许有很明显的功率(即低的DRR)。在运用传统的语音处理技能和语音辨认引擎时这种混响效应会构成很大的问题。

  最终,在远场体系中,用户语音相关于麦克风的方向以及噪声相关于麦克风的方向都是不知道的。在典型运用场合,噪声乃至与用户语音来自相同的方向。

  3.全双工话音交互:在许多远场体系中,当用户对着产品说话时,产品的扬声器中或许正在播映音频内容,如音乐、电影或话音提示。这时需求运用一个全双工的回声消除器,以便在倾听用户语音的一同抵消掉产品的回放输作声。在回声消除器并不彻底了解回放内容的体系中状况就愈加杂乱了。

  在这些状况下,完成一个依然能够杰出拾取语音的体系是一项极具应战性的使命。本文将介绍传统办法为何无法在这些远场条件下供给可承受功用的原因,然后提出了能以极具本钱效益的办法供给杰出远场功用的一种处理方案。

  大动态规模

  用于智能家庭设备的语音捕获体系需求支撑大信号动态规模,从轻声细语到嘹亮的音频内容回放。关于与用户间隔大概在0.5米至3米规模内的设备来说,设备麦克风处的语音电平规模大概在75dB至44dB SPL。关于体积不大的音频回放设备来说,回放内容在设备麦克风处的SPL电平或许挨近95dB。这种典型和极具应战性的用例对设备中的麦克风和模数转换器(ADC)的选型有很大的影响。

  关于远场运用来说,挑选具有高信噪比值的麦克风十分重要。如上所述,方针语音信号的SPL 电平或许低至44dB。关于94dB SPL的1kHz音来说,假如运用信噪比(SNR)为66dB的麦克风,等效的本底噪声为28dB SPL,那么最差状况下的语音与麦克风自身噪声之比为16dB。假如挑选信噪比为55dB的麦克风,那么语音与麦克风自身噪声之比或许低至5dB!

  ADC内部的本底噪声也很重要,由于假如运用中的ADC动态规模不行的话,还会构成信号饱满。

  图 1显现了两种ADC的输入参阅噪声,它们都是麦克风增强设置值的函数。红线显现的是动态规模大约是96dB的18位ADC功用,蓝线显现的是动态规模大约为106dB的24位ADC功用。作为参阅,灰线显现的是信噪比为66dB、灵敏度为-43dBV/Pascal的麦克风自身噪声电平。

  

  图1:麦克风自身的噪声和来自ADC的噪声将叠加在一同构成体系总的本底噪声。

  图 2和图3显现了别离运用96dB动态规模和106dB动态规模的ADC时体系的特点。106dB ADC能够供给更低的本底噪声和更高的饱满点。合理的设置是针对96dB ADC运用24dB的麦克风增强值、针对106dB ADC运用12dB的麦克风增强值。在本例中,运用106dB ADC时的本底噪声要低2dB,饱满点要高12dB。本底噪声低2dB关于拾取远场条件中的语音来说特别重要。

  

  图2:这张表显现了运用96dB ADC时的体系特点。

  

  图3:这张表显现了运用106dB ADC时的体系特点。

  考虑到峰值内容和谐振等要素,由于回声而在麦克风处发生的SPL电平或许抵达96dB乃至更高。因而关于具有大声回放而且体积不大的设备来说,在运用 96dB或许更低动态规模的ADC时饱满问题很常见。当在实践体系中遇到这些问题时,仅有的处理方案一般是进一步下降麦克风的增强值,但这样做的一同会举高本底噪声。在这个比方中,麦克风增强值需求减小到12dB。但是,与106dB ADC比较,这样做将使本底噪声高出4.3dB。因而咱们能够知道,对远场产品来说首选的处理方案是运用具有高信噪比的麦克风和106dB或更高动态规模的ADC。

  远场噪声/搅扰和混响消除以及脱节方向性束缚

  在智能家居远场运用中,取得鲁棒性的语音拾取的条件能够说是适当苛刻的。用户和设备之间的远间隔导致了其信噪比比近场运用要低许多。远间隔还会构成语音具有很低的直接途径与混响途径比值(DRR)。这个比值衡量的是直接传输到麦克风的语音信号能量与通过反射途径抵达麦克风的能量的相对巨细。在大多数家庭和办公室中,RT60时间一般在300ms至800ms规模内—这个时间将导致音频信号在室内来回反弹中损失掉约60dB的能量。当用户与麦克风的间隔超越1米时,低的DRR值关于传统语音增强处理方案和语音辨认功用来说是一个很大的问题。

  噪声/搅扰条件的改变也很大。体系需求能够一同处理静态搅扰(也便是说频谱特性十分安稳或改变十分缓慢的信号)和非静态搅扰(即频谱特性不断改变的信号)。当噪声相对安稳时,传统的单个麦克风增强办法是十分有用的。但是,当搅扰变成非稳态时,这种办法就绰绰有余了。因而为了改进实践国际条件下的语音辨认功用,要求运用多麦克风办法。

  传统的多麦克风增强算法,比方波束成形,通过估量一组受束缚的空间滤波器来增强来自预界说空间方向的信号。图4显现了一种传统波束成形器的框图。这种波束成形器有三个首要单元:最小方差无失真呼应(MVDR),堵塞矩阵(BM),自适应后置滤波器。

  

  图4:传统波束成形器有三个首要单元:最小方差无失真呼应(MVDR),堵塞矩阵(BM),自适应后置滤波器

  MVDR 将以这样的一种办法将麦克风信号组成在一同:一边测验将波束成形器的空波束指向搅扰源,一边将一个波束指向方针源。对每一个独立的空波束都要求一个额定的麦克风,因而关于方针语音或许来自任何方向的智能家庭运用来说会明显添加本钱。MVDR运用增强的信噪比发生对方针源的估量。但是,信号依然或许包括适当多的残留噪声,由于它不能抵消来自与方针源相同方向的搅扰,而这种状况在典型的实践国际中是很常见的,而且它也不能运用有限的麦克风数量抵消掉波束外的一切搅扰。堵塞矩阵(BM)能够通过朝方针源放置波束成形器的零点来估量噪声/搅扰。但是成果信号将包括方针源的残留,由于在混响条件下,由于反射(混响) 的原因方针源不是从单一方向抵达麦克风的。

  自适应后置滤波器的意图是从MVDR输出中消除残留噪声,然后进步信噪比。但是,一切滤波器算法都受这样一个实践的束缚:在堵塞矩阵的输出中存在很强的方针源。噪声估量中的这种残留语音将导致一切后置滤波器歪曲到语音信号。跟着混响的添加(DRR越来越小),这种失真的严峻性也随之添加。处理这个问题的仅有办法是明显添加麦克风的数量,这种处理方案对许多消费类运用来说就变得过分昂贵了。

  因而在对本钱灵敏的消费产品所具有的远场条件下,传统的波束成形处理方案不能供给令人满意的功用,需求新的处理方案。

  抱负的处理方案应该能在各种远场音频条件下供给共同的噪声按捺功用,即便是只运用两个麦克风。这样的处理方案不应对滤波处理方案提出任何苛刻的束缚条件,比方波束成形中的方向性束缚,一同能供给杰出的停止和非停止噪声按捺才能。抱负的处理方案还应该隐式地建模混响效应,然后防止其功用受DDR改变明显影响这样的波束成形问题。最终,处理方案应该具有满意的鲁棒性,它能够彻底不受麦克风方位和麦克风匹配的影响,然后消除对专门参数调谐的要求。

  一种改进的远场处理方案完成是这样一种架构:算法中受监督/束缚的部分只用于检测意图,不直接用于束缚滤波器规划,而且滤波器都承受无监督办法的练习。图5 显现了根据盲源别离(BSS)的这样一种处理方案的高层结构。这种处理方案有三个首要部分:根据受监督功用的话音活动检测器(VAD),不受监督的空间滤波,不受监督的频谱滤波。

  

  图5:这张图显现了根据盲源别离的SSP高层结构。

  根据受监督功用的话音活动检测器(VAD)会对方针语音的存在进行概率丈量。然后在不受监督的滤波模块中运用这个信息判别是否为噪声、搅扰或方针语音源练习滤波器。在这种架构中能够运用任何适宜的VAD。

  体系的中心是不受监督的空间滤波(USF)—根据独立重量剖析(ICA)的一种BSS算法。这种ICA算法设法建模方针源和搅扰源的混合体系,并答运用线性滤波将它们分开来。在只需两个麦克风的体系中,USF将发生4个信号输出,每个麦克风2个。对每个麦克风来说,一个信号包括方针源和一些残留噪声,另一个信号包括对一切搅扰源的估量,其间方针源现已被滤除。

  USF做到这一点所需的仅有信息是在知道何时方针语音有用以及何时噪声有用,这个信息来自VAD。然后USF寻觅滤波器以彻底不受监督的办法对方针源和搅扰源进行分拆。USF并不明确地运用源方向,尽管这个信息能够用来改进 VAD决议计划。别的,麦克风在设备上的方位和麦克风之间的不匹配对算法的影响很小。在ICA体系中,假如存在N个源,那么一般至少需求N个麦克风来康复原始信号。但是,通过将信号看作是包括1)一个方针语音信号和一个噪声信号,或2)只需一个噪声信号,%&&&&&%A能够只与两个麦克风和不知道数量的噪声源一同运用。

  USF 的输出不是在体系输出中直接运用,由于它假定组成信号是由有限数量的空间定位源发生的信号的线性组成。这种共同性假定条件对首要的语音源信号来仅仅部分建立,但对实践国际噪声来说不是的。因而线性滤波关于实践国际运用来说不是最优的,要求用非线性、随时间改变的计算性后置滤波对信号进行补偿。后置滤波办法一般涉及到对由线性滤波器输出推导出的频谱/暂时模板(或增益)进行估量。尽管模板一般能进步噪声按捺才能,但假如没有考虑分拆模型不确认性的话,屏蔽效应或许导致信号的严峻劣化。

  用于频谱滤波的办法能够根据不受监督的频谱增益散布学习,而这种散布源自USF的输出信号。然后就能发生语音存在/不存在的概率;这些概率用来操控对每个通道的频谱增强。增强技能能够消除有害的搅扰,与此一同消除最近的混响重量,即有用地去除混响。

  图 6和图7显现了这样一种体系的功用比方。在这个测验中,用户距双麦克风体系3米远。麦克风处的方针语音电平是60dB,麦克风处的搅扰语音电平是 50dB。图6中的上面通道显现的是没经任何处理的接纳信号。下面通道显现的是通过处理后的输出。图7显现了处理之前和之后的搅扰频谱内容。在这种条件下,能够抵达大约30dB的搅扰信号按捺。当未处理信号通过语音辨认引擎发送时,或许抵达95%的误字率(WER)。通过处理后的WER可下降到15%。

  

  图6:上面通道显现的是未经任何处理的接纳信号。下面通道显现的是处理后的输出。

  

  图7:显现的是处理之前和处理之后的搅扰频谱内容。

  声学回音消除(AEC) 现已存在许多年了,是任何免提通讯体系的必要部分。声学回音消除器能够从麦克风记载中消除设备自身正在回放的音频。最简略的AEC是半双工的,也便是说,当远端在说话时,它会立刻封闭近端的麦克风,反之亦然,即当近端说话时则封闭远端的麦克风。在这些体系中,同一时间只能有一边说话。

  关于语音操控运用来说,真实的全双工回音消除是体系的一个必要部分,也便是要抵达语音操控和回放一同进行的作用。声学回音消除器(AEC)要想正常作业,需求能够访问到信号,也便是设备正在播映的回音参阅。AEC随即运用这个回音参阅对房间内的声学回音途径进行线性建模。但是在实践体系中,回音途径中一般有适当多的非线性要素,它们会明显下降体系功用—比方当设备正在企图从小的扬声器中发生大的回放音量时。别的一个比方发生在回放信号被发送到AEC作为回音参阅之后对这个回放信号进行非线性的后置处理之时。语音操控的机顶盒(STB)便是这种状况,此刻AEC在作业,机顶盒中也取得了回音参阅,但电视机很或许在播映音频之前在音频上叠加一些不知道延时和后处理。在这些条件下运用传统的AEC功用会很低。

  这个问题能够这样处理:将AEC连接到前文介绍的噪声按捺技能。只需AEC能够区别远端、近端和双方说话活动,这个信息就能用作USF的活动检测输入。这种办法在具有非线性及受损回音参阅的体系中能够供给真实全双工的AEC功用。

  别的,这种新的AEC技能应该包括一个延时估量算法,以便通过对齐回音参阅和麦克风信号来处理回音途径中的不知道延时,就象在机顶盒事例中那样。

  图 8和图9显现了一个机顶盒体系的功用。用户距电视机3米远,麦克风模块坐落电视机顶上,并连接到机顶盒。用户给机顶盒宣布自然语言指令。在麦克风模块处方针语音的SPL是60dB,来自电视回放内容的回音SPL是72dB。图8的上部显现的是未经处理的麦克风信号,底部显现的是通过处理的麦克风信号。图9 显现的是处理前后残留回音的频谱内容。在这个事例中,处理前的误字率(WER)是100%,处理后则抵达了8%。

  

  图8:这张图的上部分显现的是未经处理的麦克风信号,下部分显现的是处理过的麦克风信号。

  

  图9:这张图显现了处理前后残留回音的频谱内容。

  本文小结

  传统的波束成形语音增强办法在智能家庭远场运用环境中一般无法供给可承受的处理方案,因而很有必要开发其它的体系来成功地满意和应对这些远场应战。举例来说,科胜讯(Conexant)公司现已开宣布了好像本文所述的极具本钱效益且高集成度的处理方案,这些处理方案采用了高动态规模的ADC,在低信噪比、低DDR以及语音和噪声方向不知道的条件下具有杰出的远场噪声/搅扰按捺功用,而且即便在回音信号不彻底确认的状况下也能完成真实全双工的声学回音消除。这些处理方案已被科胜讯公司布置到从智能家庭设备到平板电脑、PC和可穿戴设备的许多产品渠道上,而且一切产品都具有优异的功用成果。

  像波束成形等传统办法要求极高的麦克风本钱、特别的渠道调谐,并对麦克风方位、匹配以及语音和噪声的方向性有许多束缚条件。而上述代替性处理方案的鲁棒性可直接转换为更好的功用,并能在新的智能家庭产品开发和制作过程中明显节约本钱。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/yingyong/iot/167867.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部