文章转自ADI官网,版权归属原作者一切
简介
任何深谙设备保护必要性的人都知道,设备宣布的声响和振荡有多重要。经过声响和振荡进行恰当的设备健康监测,能够将保护本钱下降一半,运用寿命延伸一倍。完结实时声学数据和剖析是另一种重要的依据状况的体系监测 (CbM) 办法。
咱们能够学着了解设备宣布的正常声响是什么样的。当声响呈现改变时,咱们能够承认呈现反常。然后咱们能够了解是什么问题,经过这样的办法把声响和特定的问题联络在一起。辨认反常或许需求进行几分钟的练习,但将声响、振荡和原因结合起来施行确诊或许需求一辈子的时刻。经验丰富的技工人员和工程师或许具有这种常识,但他们归于稀缺资源。单单经过声响本身辨认问题或许适当困难,即便运用录音、描绘性结构或承受专家亲身训练也是如此。
因而,ADI公司团队在曩昔20年里一向致力于了解人类是怎么解读声响和振荡的。咱们的方针是树立一个体系,能够学习来自设备的声响和振荡,破译它们的含义,以检测反常行为,并进行确诊。本文具体介绍了OtoSense的体系结构,它是一种设备健康监测体系,支撑咱们所说的核算机听觉,让核算机能够了解设备行为的首要目标:声响和振荡。
该体系适用于任何设备,能够实时作业,无需网络连接。它已被运用于工业运用,支撑完结一个可扩展的高效设备健康监测体系。
本文探讨了引导开发OtoSense的准则,以及在规划OtoSense期间,人类听觉所发挥的效果。然后,本文评论了声响或振荡特性的是怎么被规划出来的、怎么从这些特性了解其代表的含义,以及在继续学习中怎么不断改动和改善 OtoSense,用于履行更加杂乱的确诊,且成果更为精准。
辅导准则
为了保证经用、不可知且高效,OtoSense 规划理念秉持几个辅导准则:
- 从人类神经学中取得创意。人类能够以一种十分节能的办法学习和了解他们听到的任何声响。
- 能够学习静态声响和瞬态声响。这需求不断调整功用和继续施行监测。
- 在接近传感器的终端进行辨认。应该无需经过网络连接长途服务器来做出决议计划。
- 与专家互动,向他们学习,条件是尽或许防止搅扰他们的日常作业,且进程要尽或许愉悦。
人类听觉体系和对 OtoSense 的解析
听觉是一种关乎生计的感觉。它是对悠远的、看不见的事情的全体感觉,在出生前就已老练
人类感知声响的进程能够用四个了解的进程来描绘:声响的模仿获取、数字转化、特征提取和解读。在每个进程中,咱们都会将人耳与 OtoSense 体系比较。
- 模仿获取和数字化。中耳中的膜和杠杆捕捉声响,然后调整阻抗,将振荡传输到充液腔道中,在那里,另一层膜会依据 信号中存在的光谱成分挑选性地移位。这反过来曲折了弹性单元,这些单元宣布数字信号,反映出曲折程度和强度。然后,这些独自的信号经过按频率摆放的平行神经传递到初级听觉皮层。
- 在 OtoSense 中,这项作业由传感器、放大器和编解码器来完结。数字化进程运用固定的采样速率,可在 250 Hz 和 196kHz 之间调理,波形在 16 位编码,然后存储到巨细在 128 到4096 之间的缓冲区。
- 特性提取发生在初级皮层:频率域特性,如主频率、谐波和频谱形状,以及时刻域特性,如脉冲、强度改变和在大约 3 秒时刻窗内的首要频率成分。
- OtoSense 运用一个时刻窗,咱们称之为块,它以固定的步长移动。这个块的巨细和步长规模为 23 毫秒到 3 秒,具体由需求辨认的事情和在终端提取特性的采样率决议。鄙人一节中,咱们会就 OtoSense 提取的特性进行更具体地解说。
- 解析发生在联络皮层,它交融了一切的感知和回忆,并赋予声响以含义(比方经过言语),在刻画感知期间起着中心作 用。解析进程会安排咱们对事情的描绘,远远不止是对它们进行命名这么简略。为一个项目、一个声响或一个事情命名能够让咱们赋予它更大、更多层的含义。关于专家来说,姓名和含义能让他们更好地了解周围的环境。
- 这便是为什么 OtoSense 与人的互动始于依据人类神经学的视觉、无监督的声响映射。OtoSense 运用图形表明一切听到的 声响或振荡,它们按相似性摆放,但不测验创立固定分类。这让专家们能够安排屏幕上显现的组,并为它们命名,而无需测验人为创立有界限的类别。他们能够依据本身的常识、感知和对 OtoSense 终究输出的希望构建语义地图。关于相同的音景,轿车机械师、航空工程师,或许冷锻压力机专家, 乃至是研讨相同范畴,但来自不同公司的人员,都能够按不同的办法进行区分、安排和符号。OtoSense则与刻画言语含义相同,运用相同的自下而上的办法来给定含义。
从声响和振荡到特性
经过一段时刻(如之前所示,时刻窗或块),咱们会给某个特征分配一个独自的编号,用于描绘该时刻内声响或振荡的给定特点/质量。OtoSense 渠道挑选特性的准则如下:
- 关于频率域和时域,特征都应该尽或许完好地描绘环境,供尽或许多的细节。它们有必要描绘停止的嗡嗡声,以及咔哒 声、哗啦声、吱吱声和任何瞬间改变的声响。
- 特征应尽或许按正交办法构成一个调集。假如一个特征被界说为“块上的均匀振幅”,那么就不应该有另一个特征与之 高度相关,例如“块上的总光谱能量”。当然,正交性或许永久无法完结,但不应将任何一种表述为其他特征的组合,每种特征都有必要包括单一信息。
- 特性应该最小化核算量。咱们的大脑只知道加法、比较和重 置为0。大多数OtoSense特性都被规划成增量,这样每个新示例都能够经过简略的操作修正特性,而不需求在完好的缓冲区,或许更为糟糕的,在块上从头进行核算。最小化核算量还意味着能够疏忽规范物理单元。例如,测验用值(以dBA为单位)表明强度是没有含义的。假如需求输出dBA值,则能够在输出时完结(假如必要)。
在OtoSense渠道的2到1024个特性中,有一部分描绘了时域。它们要么是直接从波形中提取,要么是从块就任何其他特性的演化中提取。在这些特性中,有些包括均匀振幅和最大振幅、由波形线性长度得到的杂乱度、振幅改变、脉冲的存在与否和其特性、第一个和最终一个缓冲区之间相似性的稳定性、卷积的超小型自相关或首要频谱峰值的改变。
在频域上运用的特性提取自 FFT。FFT 在每个缓冲区上核算,发生从 128 到 2048 个独自频率的输出。然后,该进程创立一个具有所需维数的向量,该向量比FFT小得多,但仍能详尽地描绘环境。OtoSense开始运用一种不可知的办法在对数频谱上创立巨细相同的数据桶。然后,依据环境和要辨认的事情,这些数据桶将要点放在信息密度高的频谱区域,要么是从能够熵最大化的无监督视角,要么是从运用符号事情作为辅导的半监督视角来判别。这模仿了咱们的内耳细胞结构,在言语信息密度最大的当地,语音细节更密布。
结构:支撑终端和本地数据
OtoSense在终端方位施行反常检测和事情辨认,无需运用任何长途设备。这种结构保证体系不会遭到网络故障的影响,且无需将一切原始数据块发送出去进行剖析。运转 OtoSense 的终端设备是一种自包括体系,能够实时描绘所鉴听设备的行为。
运转AI和HMI的OtoSense服务器一般保管在本地。云架构能够将多个有含义的数据流聚合成为OtoSense设备的输出。关于一个专门处理很多数据并在一个站点上与数百台设备交互的 AI 来说,运用云保管的含义不大。