深度学习与计算机视觉看这一篇就够了

　　人工智能是人类一个十分夸姣的愿望，跟星际周游和长生不老相同。咱们想制造出一种机器，使得它跟人相同具有必定的对外界事物感知才干，比方看见国际。

　　在上世纪50年代，数学家图灵提出判别机器是否具有人工智能的规范：图灵测验。即把机器放在一个房间，人类测验员在另一个房间，人跟机器谈天，测验员事前不知道另一房间里是人仍是机器。通过谈天，假如测验员不能确认跟他谈天的是人仍是机器的话，那么图灵测验就通过了，也便是说这个机器具有与人相同的感知才干。

　　可是从图灵测验提出来开端到本世纪初，50多年时刻有许多科学家提出许多机器学习的算法，企图让核算机具有与人相同的智力水平，但直到2006年深度学习算法的成功，才带来了一丝处理的期望。

　　众星捧月的深度学习

　　深度学习在许多学术范畴，比非深度学习算法往往有20-30%作用的进步。许多大公司也逐步开端出手出资这种算法，并建立自己的深度学习团队，其间投入最大的便是谷歌，2008年6月披露了谷歌脑项目。2014年1月谷歌收买DeepMind，然后2016年3月其开发的Alphago算法在围棋挑战赛中，打败了韩国九段棋手李世石，证明深度学习规划出的算法可以打败这个国际上最强的选手。

　　在硬件方面，Nvidia最开端做显现芯片，但从2006及2007年开端主推用GPU芯片进行通用核算，它特别适宜深度学习中很多简略重复的核算量。现在许多人选择Nvidia的CUDA工具包进行深度学习软件的开发。

　　微软从2012年开端，运用深度学习进行机器翻译和中文语音组成作业，其人工智能小娜背面便是一套自然言语处理和语音辨认的数据算法。

　　百度在2013年宣告建立百度研讨院，其间最重要的便是百度深度学习研讨所，其时招募了闻名科学家余凯博士。不过后来余凯脱离百度，创立了另一家从事深度学习算法开发的公司地平线。

　　Facebook和Twitter也都各自进行了深度学习研讨，其间前者携手纽约大学教授Yann Lecun，建立了自己的深度学习算法实验室;2015年10月，Facebook宣告开源其深度学习算法结构，即Torch结构。Twitter在2014年7月收买了Madbits，为用户供给高精度的图画检索服务。

　　前深度学习年代的核算机视觉

　　互联网巨子垂青深度学习当然不是为了学术，首要是它能带来巨大的商场。那为什么在深度学习出来之前，传统算法为什么没有到达深度学习的精度?

　　在深度学习算法出来之前，关于视觉算法来说，大致可以分为以下5个进程：特征感知，图画预处理，特征提取，特征选择，推理猜测与辨认。前期的机器学习中，占优势的核算机器学习集体中，对特征是不大关怀的。

　　我以为，核算机视觉可以说是机器学习在视觉范畴的运用，所以核算机视觉在选用这些机器学习办法的时分，不得不自己规划前面4个部分。

　　但对任何人来说这都是一个比较难的使命。传统的核算机辨认办法把特征提取和分类器规划分开来做，然后在运用时再合在一同，比方假如输入是一个摩托车图画的话，首要要有一个特征表达或许特征提取的进程，然后把表达出来的特征放到学习算法中进行分类的学习。

　　曩昔20年中呈现了不少优异的特征算子，比方最闻名的SIFT算子，即所谓的对标准旋转坚持不变的算子。它被广泛地运用在图画比对，特别是所谓的structure from motion这些运用中，有一些成功的运用比方。另一个是HoG算子，它可以提取物体，比较鲁棒的物体边际，在物体检测中扮演侧重要的人物。

　　这些算子还包含Textons，Spin image，RIFT和GLOH，都是在深度学习诞生之前或许深度学习真实的盛行起来之前，占据视觉算法的干流。

　　几个(半)成功比方

　　这些特征和一些特定的分类器组合获得了一些成功或半成功的比方，底子到达了商业化的要求但还没有彻底商业化。

　　一是八九十年代的指纹辨认算法，它现已十分老练，一般是在指纹的图画上面去寻觅一些要害点，寻觅具有特别几许特征的点，然后把两个指纹的要害点进行比对，判别是否匹配。

　　然后是2001年依据Haar的人脸检测算法，在其时的硬件条件下现已可以到达实时人脸检测，咱们现在一切手机相机里的人脸检测，都是依据它或许它的变种。

　　第三个是依据HoG特征的物体检测，它和所对应的SVM分类器组合起来的便是闻名的DPM算法。DPM算法在物体检测上超越了一切的算法，获得了比较不错的作用。

　　但这种成功比方太少了，因为手艺规划特征需求很多的经历，需求你对这个范畴和数据特别了解，然后规划出来特征还需求很多的调试作业。说白了便是需求一点命运。

　　另一个难点在于，你不只需求手艺规划特征，还要在此基础上有一个比较适宜的分类器算法。一同规划特征然后选择一个分类器，这两者兼并到达最优的作用，简直是不或许完结的使命。

　　仿生学视点看深度学习

　　假如不手动规划特征，不选择分类器，有没有其他计划呢?能不能一同学习特征和分类器?即输入某一个模型的时分，输入仅仅图片，输出便是它自己的标签。比方输入一个明星的头像，出来的标签便是一个50维的向量(假如要在50个人里辨认的话)，其间对应明星的向量是1，其他的方位是0。

　　这种设定契合人类脑科学的研讨作用。

　　1981年诺贝尔医学生理学奖颁发给了David Hubel，一位神经生物学家。他的首要研讨作用是发现了视觉体系信息处理机制，证明大脑的可视皮层是分级的。他的奉献首要有两个，一是他以为人的视觉功用一个是笼统，一个是迭代。笼统便是把十分详细的形象的元素，即原始的光线像素等信息，笼统出来构成有含义的概念。这些有含义的概念又会往上迭代，变成愈加笼统，人可以感知到的笼统概念。

　　像素是没有笼统含义的，但人脑可以把这些像素衔接成边际，边际相对像素来说就变成了比较笼统的概念;边际从而构成球形，球形然后到气球，又是一个笼统的进程，大脑终究就知道看到的是一个气球。

　　模仿人脑辨认人脸，也是笼统迭代的进程，从最开端的像素到第二层的边际，再到人脸的部分，然后到整张人脸，是一个笼统迭代的进程。

　　再比方看到图片中的摩托车，咱们或许在脑子里就几微秒的时刻，可是通过了很多的神经元笼统迭代。对核算机来说最开端看到的底子也不是摩托车，而是RGB图画三个通道上不同的数字。

　　所谓的特征或许视觉特征，便是把这些数值给归纳起来用核算或非核算的办法，把摩托车的部件或许整辆摩托车表现出来。深度学习的盛行之前，大部分的规划图画特征便是依据此，即把一个区域内的像素级其他信息归纳表现出来，利于后边的分类学习。

　　假如要彻底模仿人脑，咱们也要模仿笼统和递归迭代的进程，把信息从最细琐的像素等级，笼统到“品种”的概念，让人可以承受。

　　卷积的概念

　　核算机视觉里常常使卷积神经网络，即CNN，是一种对人脑比较精准的模仿。

　　什么是卷积?卷积便是两个函数之间的相互联系，然后得出一个新的值，他是在接连空间做积分核算，然后在离散空间内求和的进程。实际上在核算机视觉里边，可以把卷积作为一个笼统的进程，便是把小区域内的信息核算笼统出来。

　　比方，关于一张爱因斯坦的相片，我可以学习n个不同的卷积和函数，然后对这个区域进行核算。可以用不同的办法核算，比方侧重核算中心，也可以侧重核算周围，这就导致核算的和函数的品种多种多样，为了到达可以一同学习多个核算的累积和。

　　上图中是，怎样从输入图画怎样到最终的卷积，生成的呼应map。首要用学习好的卷积和对图画进行扫描，然后每一个卷积和会生成一个扫描的呼应图，咱们叫response map，或许叫feature map。假如有多个卷积和，就有多个feature map。也就说从一个最开端的输入图画(RGB三个通道)可以得到256个通道的feature map，因为有256个卷积和，每个卷积和代表一种核算笼统的办法。

　　在卷积神经网络中，除了卷积层，还有一种叫池化的操作。池化操作在核算上的概念更清晰，便是一个对一个小区域内求平均值或许求最大值的核算操作。

　　带来的作用是，假如之前我输入有两个通道的，或许256通道的卷积的呼应feature map，每一个feature map都通过一个求最大的一个池化层，会得到一个比本来feature map更小的256的feature map。

　　在上面这个比方里，池化层对每一个2X2的区域求最大值，然后把最大值赋给生成的feature map的对应方位。假如输入图画是100×100的话，那输出图画就会变成50×50，feature map变成了一半。一同保存的信息是本来2X2区域里边最大的信息。

　　操作的实例：LeNet网络

　　Le望文生义便是指人工智能范畴的大牛Lecun。这个网络是深度学习网络的开端原型，因为之前的网络都比较浅，它较深的。LeNet在98年就创造出来了，其时Lecun在AT&T的实验室，他用这一网络进行字母辨认，到达了十分好的作用。

　　怎样构成呢?输入图画是32×32的灰度图，榜首层通过了一组卷积和，生成了6个28X28的feature map，然后通过一个池化层，得到得到6个14X14的feature map，然后再通过一个卷积层，生成了16个10X10的卷积层，再通过池化层生成16个5×5的feature map。

　　从最终16个5X5的feature map开端，通过了3个全衔接层，到达最终的输出，输出便是标签空间的输出。因为规划的是只要对0到9进行辨认，所以输出空间是10，假如要对10个数字再加上26个巨细字母进行辨认的话，输出空间便是62。62维向量里，假如某一个维度上的值最大，它对应的那个字母和数字便是便是猜测作用。

　　压在骆驼身上的最终一根稻草

　　从98年到本世纪初，深度学习昌盛起来用了15年，但其时作用泛善可陈，一度被边际化。到2012年，深度学习算法在部分范畴获得不错的作用，而压在骆驼身上最终一根稻草便是AlexNet。

　　AlexNet由多伦多大学几个科学家开发，在ImageNet竞赛上做到了十分好的作用。其时AlexNet辨认作用超越了一切浅层的办法。尔后，咱们认识到深度学习的年代总算来了，并有人用它做其它的运用，一同也有些人开端开发新的网络结构。

　　其实AlexNet的结构也很简略，仅仅LeNet的扩大版。输入是一个224X224的图片，是通过了若干个卷积层，若干个池化层，最终衔接了两个全衔接层，到达了最终的标签空间。

　　上一年，有些人研讨出来怎样样可视化深度学习出来的特征。那么，AlexNet学习出的特征是什么姿势?在榜首层，都是一些填充的块状物和鸿沟等特征;中心的层开端学习一些纹路特征;更高挨近分类器的层级，则可以显着看到的物体形状的特征。

　　最终的一层，即分类层，彻底是物体的不同的姿势，依据不同的物体展现出不同姿势的特征了。

　　可以说，不论是对人脸，车辆，大象或椅子进行辨认，最开端学到的东西都是边际，继而便是物体的部分，然后在更高层层级才干笼统到物体的全体。整个卷积神经网络在模仿人的笼统和迭代的进程。

　　为什么时隔20年东山再起?

　　咱们不由要问：好像卷积神经网络规划也不是很杂乱，98年就现已有一个比较像样的雏形了。自在换算法和理论证明也没有太多发展。那为什么时隔20年，卷积神经网络才干东山再起，占据干流?

　　这一问题与卷积神经网络自身的技能联系不太大，我个人以为与其他一些客观因素有关。

　　首要，卷积神经网络的深度太浅的话，辨认才干往往不如一般的浅层模型，比方SVM或许boosting。但假如做得很深，就需求很多数据进行练习，不然机器学习中的过拟合将不可避免。而2006及2007年开端，正好是互联网开端很多产生各式各样的图片数据的时分。

　　别的一个条件是运算才干。卷积神经网络对核算机的运算要求比较高，需求很多重复可并行化的核算，在其时CPU只要单核且运算才干比较低的情况下，不或许进行个很深的卷积神经网络的练习。跟着GPU核算才干的增加，卷积神经网络结合大数据的练习才成为或许。

　　最终一点便是人和。卷积神经网络有一批一直在坚持的科学家(如Lecun)才没有被缄默沉静，才没有被海量的浅层办法吞没。然后最终总算看到卷积神经网络占据干流的曙光。

　　深度学习在视觉上的运用

　　核算机视觉中比较成功的深度学习的运用，包含人脸辨认，图画问答，物体检测，物体盯梢。

　　人脸辨认

　　这儿说人脸辨认中的人脸比对，即得到一张人脸，与数据库里的人脸进行比对;或一同给两张人脸，判别是不是同一个人。

　　这方面比较超前的是汤晓鸥教授，他们提出的DeepID算法在LWF上做得比较好。他们也是用卷积神经网络，但在做比对时，两张人脸别离提取了不同方位特征，然后再进行相互比对，得到最终的比对作用。最新的DeepID-3算法，在LWF到达了99.53%准确度，与肉眼辨认作用相差无几。

　　图片问答问题

　　这是2014年左右鼓起的课题，即给张图片一同问个问题，然后让核算机答复。比方有一个办公室靠海的图片，然后问“桌子后边有什么”，神经网络输出应该是“椅子和窗户”。

　　这一运用引入了LSTM网络，这是一个专门规划出来具有必定回忆才干的神经单元。特色是，会把某一个时刻的输出当作下一个时刻的输入。可以以为它比较适宜言语等，有时刻序列联系的场景。因为咱们在读一篇文章和语句的时分，对语句后边的了解是依据前面对词语的回忆。

　　图画问答问题是依据卷积神经网络和LSTM单元的结合，来完成图画问答。LSTM输出就应该是想要的答案，而输入的便是上一个时刻的输入，以及图画的特征，及问句的每个词语。

　　物体检测问题

　　Region CNN

　　深度学习在物体检测方面也获得了十分好的作用。2014年的Region CNN算法，底子思想是首要用一个非深度的办法，在图画中提取或许是物体的图形块，然后深度学习算法依据这些图画块，判别特色和一个详细物体的方位。

　　为什么要用非深度的办法先提取或许的图画块?因为在做物体检测的时分，假如你用扫描窗的办法进行物体监测，要考虑到扫描窗巨细的不相同，长宽比和方位不相同，假如每一个图画块都要过一遍深度网络的话，这种时刻是你无法承受的。

　　所以用了一个折中的办法，叫Selective Search。先把彻底不或许是物体的图画块去除，只剩2000左右的图画块放到深度网络里边判别。那么获得的作用是AP是58.5，比以往简直翻了一倍。有一点不尽善尽美的是，region CNN的速度十分慢，需求10到45秒处理一张图片。

　　Faster R-CNN办法

　　并且我在上一年NIPS上，咱们看到的有Faster R-CNN办法，一个超级加快版R-CNN办法。它的速度到达了每秒七帧，即一秒钟可以处理七张图片。技巧在于，不是用图画块来判别是物体仍是布景，而把整张图画一同扔进深度网络里，让深度网络自行判别哪里有物体，物体的方块在哪里，品种是什么?

　　通过深度网络运算的次数从本来的2000次降到一次，速度大大进步了。

　　Faster R-CNN提出了让深度学习自己生成或许的物体块，再用相同深度网络来判别物体块是否是布景?一同进行分类，还要把鸿沟和给估量出来。

　　Faster R-CNN可以做到又快又好，在VOC2007上检测AP到达73.2，速度也进步了两三百倍。

　　YOLO

　　上一年FACEBOOK提出来的YOLO网络，也是进行物体检测，最快到达每秒钟155帧，到达了彻底实时。它让一整张图画进入到神经网络，让神经网络自己判别这物体或许在哪里，或许是什么。但它减缩了或许图画块的个数，从本来Faster R-CNN的2000多个减减缩缩到了98个。

　　一同取消了Faster R-CNN里边的RPN结构，替代Selective Search结构。YOLO里边没有RPN这一步，而是直接猜测物体的品种和方位。

　　YOLO的价值便是精度下降，在155帧的速度下精度只要52.7，45帧每秒时的精度是63.4。

　　SSD

　　在arXiv上呈现的最新算法叫Single Shot MultiBox Detector，即SSD。

　　它是YOLO的超级改进版，吸取了YOLO的精度下降的经验，一同保存速度快的特色。它能到达58帧每秒，精度有72.1。速度超越Faster R-CNN 有8倍，但到达相似的精度。

　　物体盯梢

　　所谓盯梢，便是在视频里边榜首帧时确定感兴趣的物体，让核算机跟着走，不管怎样旋转晃动，乃至躲在树丛后边也要盯梢。

　　深度学习对盯梢问题有很明显的作用。DeepTrack算法是我在澳大利亚信息科技研讨院时和搭档提出的，是榜首在线用深度学习进行盯梢的文章，其时超越了其它一切的浅层算法。

　　本年有越来越多深度学习盯梢算法提出。上一年十二月%&&&&&%CV 2015上面，马超提出的Hierarchical Convolutional Feature算法，在数据上到达最新的记载。它不是在线更新一个深度学习网络，而是用一个大网络进行预练习，然后让大网络知道什么是物体什么不是物体。

　　将大网络放在盯梢视频上面，然后再剖析网络在视频上产生的不同特征，用比较老练的浅层盯梢算法来进行盯梢，这样运用了深度学习特征学习比较好的长处，一同又运用了浅层办法速度较快的长处。作用是每秒钟10帧，一同精度破了记载。

　　最新的盯梢作用是依据Hierarchical Convolutional Feature，由一个韩国的科研组提出的MDnet。它调集了前面两种深度算法的集大成，首要离线的时分有学习，学习的不是一般的物体检测，也不是ImageNet，学习的是盯梢视频，然后在学习视频完毕后，在真实在运用网络的时分更新网络的一部分。这样既在离线的时分得到了很多的练习，在线的时分又可以很灵敏改动自己的网络。

　　依据嵌入式体系的深度学习

　　回到ADAS问题(慧眼科技的主业)，它彻底可以用深度学习算法，但对硬件渠道有比较高的要求。在汽车上不太或许把一台电脑放上去，因为功率是个问题，很难被商场所承受。

　　现在的深度学习核算首要是在云端进行，前端拍照相片，传给后端的云渠道处理。但关于ADAS而言，无法承受长时刻的数据传输的，或许产生事端后，云端的数据还没传回来。

　　那是否可以考虑NVIDIA推出的嵌入式渠道?NVIDIA推出的嵌入式渠道，其运算才干远远强过了一切干流的嵌入式渠道，运算才干挨近干流的尖端CPU，如台式机的i7。那么慧眼科技在做作业便是要使得深度学习算法，在嵌入式渠道有限的资源情况下可以到达实时作用，并且精度简直没有削减。

　　详细做法是，首要对网络进行减缩，或许是对网络的结构减缩，因为辨认场景不同，也要进行相应的功用性减缩;别的要用最快的深度检测算法，结合最快的深度盯梢算法，一同自己研宣布一些场景剖析算法。三者结合在一同，意图是削减运算量，削减检测空间的巨细。在这种情况下，在有限资源上完成了运用深度学习算法，但精度削减的十分少。

扫一扫打开手机网站

微信扫一扫关注我们

深度学习与计算机视觉看这一篇就够了

联系我们

微信扫一扫关注我们

为您推荐

电路PCB的地平面设计对EMI的影响

小漫电子经销muRata(村田)DLW5BSM601TQ2L

开关电源中EMI滤波器组件的原理分析

如何用电压跟随器使运算放大器保持稳定？

瑞萨高精度旋转变压器电机控制方案

技术帖 | AM62x处理器SPI的详解与应用

联系我们

微信扫一扫关注我们