正在加载

深圳深度学习机器视觉检测设备生产(机器视觉检测做的比较好的公司有哪些)

  • 作者: 周凤蕊
  • 发布时间:2023-09-10


身为电气工程师的你懂机器视觉吗为什么它这么厉害

机器视觉是通过计算机来模拟人类视觉功能,以让机器获得相关视觉信息和加以理解。可分为“视”和“觉”两部分原理。

“视”是将外界信息通过成像来显示成数字信号反馈给计算机,需要依靠一整套的硬件解决方案,包括光源、相机、图像采集卡、视觉传感器等。“觉”则是计算机对数字信号进行处理和分析,主要是软件算法。

机器视觉在工业上应用领域广阔,核心功能包括:测量、检测、识别、定位等。

产业链可以分为上游部件级市场、中游系统集成/整机装备市场和下游应用市场。

机器视觉上游有光源、镜头、工业相机、图像采集卡、图像处理软件等软硬件提供商,中游有集成和整机设备提供商,行业下游应用较广,主要下游市场包括电子制造行业、汽车、印刷包装、烟草、农业、医药、纺织和交通等领域。

机器视觉全球市场主要分布在北美、欧洲、日本、中国等地区,根据统计数据,2014年,全球机器视觉系统及部件市场规模是 36.7亿美元,2015年全球机器视觉系统及部件市场规模是42亿美元,2016年全球机器视觉系统及部件市场规模是62亿美元,2002-2016年市场年均复合增长率为12%左右。而机器视觉系统集成,根据北美市场数据估算,大约是视觉系统及部件市场的6倍。

中国机器视觉起步于80年代的技术引进,随着98年半导体工厂的整线引进,也带入机器视觉系统,06年以前国内机器视觉产品主要集中在外资制造企业,规模都较小,06年开始,工业机器视觉应用的客户群开始扩大到印刷、食品等检测领域,2011年市场开始高速增长,随着人工成本的增加和制造业的升级需求,加上计算机视觉技术的快速发展,越来越多机器视觉方案渗透到各领域,到2016年我国机器视觉市场规模已达近70亿元。

机器视觉中,缺陷检测功能,是机器视觉应用得最多的功能之一,主要检测产品表面的各种信息。在现代工业自动化生产中,连续大批量生产中每个制程都有一定的次品率,单独看虽然比率很小,但相乘后却成为企业难以提高良率的瓶颈,并且在经过完整制程后再剔除次品成本会高很多(例如,如果锡膏印刷工序存在定位偏差,且该问题直到芯片贴装后的在线测试才被发现,那么返修的成本将会是原成本的100倍以上),因此及时检测及次品剔除对质量控制和成本控制是非常重要的,也是制造业进一步升级的重要基石。

1.在检测行业,与人类视觉相比,机器视觉优势明显

1)精确度高:人类视觉是64灰度级,且对微小目标分辨力弱;机器视觉可显著提高灰度级,同时可观测微米级的目标;

2)速度快:人类是无法看清快速运动的目标的,机器快门时间则可达微秒级别;

3)稳定性高:机器视觉解决了人类一个非常严重的问题,不稳定,人工目检是劳动非常枯燥和辛苦的行业,无论你设计怎样的奖惩制度,都会发生比较高的漏检率。但是机器视觉检测设备则没有疲劳问题,没有情绪波动,只要是你在算法中写好的东西,每一次都会认真执行。在质控中大大提升效果可控性。

4)信息的集成与留存:机器视觉获得的信息量是全面且可追溯的,相关信息可以很方便的集成和留存。

2.机器视觉技术近年发展迅速

1)图像采集技术发展迅猛

CCD、CMOS等固件越来越成熟,图像敏感器件尺寸不断缩小,像元数量和数据率不断提高,分辨率和帧率的提升速度可以说日新月异,产品系列也越来越丰富,在增益、快门和信噪比等参数上不断优化,通过核心测试指标(MTF、畸变、信噪比、光源亮度、均匀性、色温、系统成像能力综合评估等)来对光源、镜头和相机进行综合选择,使得很多以前成像上的难点问题得以不断突破。

2)图像处理和模式识别发展迅速

图像处理上,随着图像高精度的边缘信息的提取,很多原本混合在背景噪声中难以直接检测的低对比度瑕疵开始得到分辨。

模式识别上,本身可以看作一个标记过程,在一定量度或观测的基础上,把待识模式划分到各自的模式中去。图像识别中运用得较多的主要是决策理论和结构方法。决策理论方法的基础是决策函数,利用它对模式向量进行分类识别,是以定时描述(如统计纹理)为基础的;结构方法的核心是将物体分解成了模式或模式基元,而不同的物体结构有不同的基元串(或称字符串),通过对未知物体利用给定的模式基元求出编码边界,得到字符串,再根据字符串判断它的属类。在特征生成上,很多新算法不断出现,包括基于小波、小波包、分形的特征,以及独二分量分析;还有关子支持向量机,变形模板匹配,线性以及非线性分类器的设计等都在不断延展。

3)深度学习带来的突破

传统的机器学习在特征提取上主要依靠人来分析和建立逻辑,而深度学习则通过多层感知机模拟大脑工作,构建深度神经网络(如卷积神经网络等)来学习简单特征、建立复杂特征、学习映射并输出,训练过程中所有层级都会被不断优化。在具体的应用上,例如自动ROI区域分割;标点定位(通过防真视觉可灵活检测未知瑕疵);从重噪声图像重检测无法描述或量化的瑕疵如橘皮瑕疵;分辨玻璃盖板检测中的真假瑕疵等。随着越来越多的基于深度学习的机器视觉软件推向市场(包括瑞士的vidi,韩国的SUALAB,香港的应科院等),深度学习给机器视觉的赋能会越来越明显。

4)3d视觉的发展

3D视觉还处于起步阶段,许多应用程序都在使用3D表面重构,包括导航、工业检测、逆向工程、测绘、物体识别、测量与分级等,但精度问题限制了3D视觉在很多场景的应用,目前工程上最先铺开的应用是物流里的标准件体积测量,相信未来这块潜力巨大。

3.要全面替代人工目检,机器视觉还有诸多难点有待攻破

1)光源与成像:机器视觉中优质的成像是第一步,由于不同材料物体表面反光、折射等问题都会影响被测物体特征的提取,因此光源与成像可以说是机器视觉检测要攻克的第一个难关。比如现在玻璃、反光表面的划痕检测等,很多时候问题都卡在不同缺陷的集成成像上。

2)重噪音中低对比度图像中的特征提取:在重噪音环境下,真假瑕疵的鉴别很多时候较难,这也是很多场景始终存在一定误检率的原因,但这块通过成像和边缘特征提取的快速发展,已经在不断取得各种突破。

3)对非预期缺陷的识别:在应用中,往往是给定一些具体的缺陷模式,使用机器视觉来识别它们到底有没有发生。但经常遇到的情况是,许多明显的缺陷,因为之前没有发生过,或者发生的模式过分多样,而被漏检。如果换做是人,虽然在操作流程文件中没让他去检测这个缺陷,但是他会注意到,从而有较大几率抓住它,而机器视觉在这点上的“智慧”目前还较难突破。

4.机器视觉产业链情况

1)上游部件级市场

主要包括光源、镜头、工业相机、图像采集卡、图像处理软件等提供商,近几年智能相机、工业相机、光源和板卡都保持了不低于20%的增速。根据中国机器视觉产业联盟(CMVU)调查统计,现在已进入中国的国际机器视觉品牌已近200多家(如康耐视、达尔萨、堡盟等为代表的核心部件制造商,以基恩士、欧姆龙、松下、邦纳、NI等为代表的则同时涉足机器视觉核心部件和系统集成),中国自有的机器视觉品牌也已有100多家(如海康、华睿、盟拓光电、神州视觉、深圳灿锐、上海方诚、上海波创电气等),机器视觉各类产品代理商超过300家(如深圳鸿富视觉、微视新纪元、三宝兴业、凌云光、阳光视觉等)。很多国内机器视觉的部件市场都是从代理国外品牌开始,很多企业均与国外的同行有较好的合作,且这种合作具有一定的排他性,这给潜在进入者带来了一定的门槛,因此优质产品的代理商也都有不错的市场竞争力和利润表现。同时,以海康、华睿为代表的国产工业视觉核心部件正在快速崛起。

2)中游系统集成和整机装备市场

国内中游的系统集成和整机装备商有100多家,他们可以给各行业自动化公司提供综合的机器视觉方案,如凌云光、微视新纪元、嘉恒、凌华、阳光视觉、鼎信、大恒图像等。由于国内产品与国际依然有不小差距,很多中游系统集成商和整机装备商又是从核心零部件的贸易做起来的,因此很多在视觉产品的选择方面,依然更为青睐国外品牌。国内品牌为推广自己的软硬件产品,往往需要发展自己的方案集成能力,才能更好的面对市场竞争。

3)下游应用市场

机器视觉下游,主要是给终端用户提供非标自动化综合解决方案的公司,行业属性非常强,核心竞争力是对行业和生产的综合理解和多类技术整合。由于行业自动化的更迭有一定周期性,深受行业整体升级速度、出货量和利润状况影响,因此近两年来看,拉动机器视觉应用普及最主要的还是在电子制造业,其次是汽车和制药。

i.半导体和电子生产行业:从国内机器视觉工业上的应用分布来看,46%都集中在电子及半导体制造行业,包括晶圆加工制造的分类切割、PCB检测(底片、内/外层板、成品外观终检等)、SMT贴装检测、LCD全流程的AOI缺陷检测、各种3c组件的表面缺陷检测、3c产品外观检测等

ii.汽车:车身装配检测、零件的几何尺寸和误差测量、表面和内部缺陷检测、间隙检测等

iii.印刷、包装检测:烟草外壳印刷、食品的包装和印刷、药品的铝塑板包装和印刷等

iv.农业:对农产品的分级、检验和分类

v.纺织:对异纤、云织、经疵、纬疵等瑕疵检测、织物表面绒毛鉴定、纱线结构分析等等。

5.机器视觉系统未来发展趋势

1)嵌入式解决方案发展迅猛,智能相机性能与成本优势突出,嵌入式PC会越来越强大

2)模块化的通用型软件平台和人工智能软件平台将降低开发人员技术要求和缩短开发周期

3)3d视觉将走向更多应用场景

视觉检测的工作原理

视觉检测涉及拍摄物体的图像,对其进行检测并转化为数据供系统处理和分析,确保符合其制造商的质量标准。不符合质量标准的对象会被跟踪和剔除。

掌握视觉检测系统的工作原理对评估该系统对公司运作所做的贡献十分重要。必须充分在设置视觉检测系统时所涉及到的变量。正确设置这些变量,采用合适的容差,这对确保在动态的生产环境中有效而可靠地运行系统而言至关重要。如果一个变量调整或设计不正确,系统将连续出现错误剔除,证明使用不可靠。

机器视觉检测做的比较好的公司有哪些

机器视觉检测做的比较好的公司有基恩士,康耐视,大恒,凌

云,思普泰克,研祥金码。【服务热线,贴心服务】

AOI检测设备又名AOI光学自动检测设备现已成为电子制造业确保产品质量的重要检测工具和过程质量控制工具,因此,如何从众多的AOI品牌中选择和使用适合自已要求的AOI光学自动检测设备,已成为广大电子制造工作者十分关心的问题。

AOI检测设备原理:当自动检测时,AOI检测设备机器通过高清CCD摄像头自动扫描PCBA产品,采集图像,测试的检测点与数据库中的合格的参数进行比较,经过图像处理,检查出目标产品上的缺陷,并通过显示器或自动标志把缺陷显示/标示出来,供维修人员修整和SMT工程人员改善工艺。

作为机器视觉行业国家标准制订单位,RegemMarr研祥金码专注读码+屏检,致力于智能读码器、显示屏领域智能化生产、加工和质量检测设备的研发、生产与销售,为业界领先的国际化创新型高新技术企业。

什么是深度学习与机器视觉

深度学习框架,尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机[2],而人工神经网络的历史更为久远。1989年,燕乐存(Yann LeCun)等人开始将1974年提出的标准反向传播算法[3]应用于深度神经网络,这一网络被用于手写邮政编码识别。尽管算法可以成功执行,但计算代价非常巨大,神经网路的训练时间达到了3天,因而无法投入实际使用[4]。许多因素导致了这一缓慢的训练过程,其中一种是由于尔根·施密德胡伯(Jürgen Schmidhuber)的学生赛普·霍克赖特(Sepp Hochreiter)于1991年提出的梯度消失问题[5][6]。与此同时,神经网络也受到了其他更加简单模型的挑战,支持向量机等模型在20世纪90年代到21世纪初成为更加流行的机器学习算法。

“深度学习”这一概念从2007年前后开始受到关注。当时,杰弗里·辛顿(Geoffrey Hinton)和鲁斯兰·萨拉赫丁诺夫(Ruslan Salakhutdinov)提出了一种在前馈神经网络中进行有效训练的算法。这一算法将网络中的每一层视为无监督的受限玻尔兹曼机,再使用有监督的反向传播算法进行调优[7]。在此之前的1992年,在更为普遍的情形下,施密德胡伯也曾在递归神经网络上提出一种类似的训练方法,并在实验中证明这一训练方法能够有效提高有监督学习的执行速度[8][9].

自深度学习出现以来,它已成为很多领域,尤其是在计算机视觉和语音识别中,成为各种领先系统的一部分。在通用的用于检验的数据集,例如语音识别中的TIMIT和图像识别中的ImageNet, Cifar10上的实验证明,深度学习能够提高识别的精度。

硬件的进步也是深度学习重新获得关注的重要因素。高性能图形处理器的出现极大地提高了数值和矩阵运算的速度,使得机器学习算法的运行时间得到了显著的缩短[10][11]。

基本概念[编辑]

深度学习的基础是机器学习中的分散表示(distributed representation)。分散表示假定观测值是由不同因子相互作用生成。在此基础上,深度学习进一步假定这一相互作用的过程可分为多个层次,代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象[1]。

深度学习运用了这分层次抽象的思想,更高层次的概念从低层次的概念学习得到。这一分层结构常常使用贪婪算法逐层构建而成,并从中选取有助于机器学习的更有效的特征[1].

不少深度学习算法都以无监督学习的形式出现,因而这些算法能被应用于其他算法无法企及的无标签数据,这一类数据比有标签数据更丰富,也更容易获得。这一点也为深度学习赢得了重要的优势[1]。

人工神经网络下的深度学习[编辑]

一部分最成功的深度学习方法涉及到对人工神经网络的运用。人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔(David H. Hubel)和托斯坦·威泽尔(Torsten Wiesel)提出的理论启发。休伯尔和威泽尔发现,在大脑的初级视觉皮层中存在两种细胞:简单细胞和复杂细胞,这两种细胞承担不同层次的视觉感知功能。受此启发,许多神经网络模型也被设计为不同节点之间的分层模型[12]。

福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。燕乐存将有监督的反向传播算法应用于这一架构[13]。事实上,从反向传播算法自20世纪70年代提出以来,不少研究者都曾试图将其应用于训练有监督的深度神经网络,但最初的尝试大都失败。赛普·霍克赖特(Sepp Hochreiter)在其博士论文中将失败的原因归结为梯度消失,这一现象同时在深度前馈神经网络和递归神经网络中出现,后者的训练过程类似深度网络。在分层训练的过程中,本应用于修正模型参数的误差随着层数的增加指数递减,这导致了模型训练的效率低下[14][15]。

为了解决这一问题,研究者们提出了一些不同的方法。于尔根·施密德胡伯(Jürgen Schmidhuber)于1992年提出多层级网络,利用无监督学习训练深度神经网络的每一层,再使用反向传播算法进行调优。在这一模型中,神经网络中的每一层都代表观测变量的一种压缩表示,这一表示也被传递到下一层网络[8]。

另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络(long short term memory,LSTM)[16]。2009年,在ICDAR 2009举办的连笔手写识别竞赛中,在没有任何先验知识的情况下,深度多维长短期记忆神经网络取得了其中三场比赛的胜利[17][18]。

斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型,用以解决图像重建和人脸定位的问题[19]。

其他方法同样采用了无监督预训练来构建神经网络,用以发现有效的特征,此后再采用有监督的反向传播以区分有标签数据。辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机[20]对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。当足够多的层数被学习完毕,这一深层结构成为一个生成模型,可以通过自上而下的采样重构整个数据集[21]。辛顿声称这一模型在高维结构化数据上能够有效低提取特征[22]。

吴恩达和杰夫·迪恩(Jeff Dean)领导的谷歌大脑(英语:Google Brain)团队创建了一个仅通过YouTube视频学习高层概念(例如猫)的神经网络[23] [24]。

其他方法依赖了现代电子计算机的强大计算能力,尤其是GPU。2010年,在于尔根·施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中,丹·奇雷尚(Dan Ciresan)和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。这一方法在燕乐存等人给出的手写识别MNIST数据集上战胜了已有的其他方法[10]。

截止2011年,前馈神经网络深度学习中最新的方法是交替使用卷积层(convolutional layers)和最大值池化层(max-pooling layers)并加入单纯的分类层作为顶端。训练过程也无需引入无监督的预训练[25][26]。从2011年起,这一方法的GPU实现[25]多次赢得了各类模式识别竞赛的胜利,包括IJCNN 2011交通标志识别竞赛[27]和其他比赛。

这些深度学习算法也是最先在某些识别任务上达到和人类表现具备同等竞争力的算法[28]。

深度学习结构[编辑]

深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。深度神经网络通常都是前馈神经网络,但也有语言建模等方面的研究将其拓展到递归神经网络[29]。卷积深度神经网络(Covolutional Neuron Networks, CNN)在计算机视觉领域得到了成功的应用[30]。此后,卷积神经网络也作为听觉模型被使用在自动语音识别领域,较以往的方法获得了更优的结果[31]。

深度神经网络[编辑]

深度神经网络(deep neuron networks, DNN)是一种判别模型,可以使用反向传播算法进行训练。权重更新可以使用下式进行随机梯度下降求解:

其中,为学习率,为代价函数。这一函数的选择与学习的类型(例如监督学习、无监督学习、增强学习)以及激活函数相关。例如,为了在一个多分类问题上进行监督学习,通常的选择是使用Softmax函数作为激活函数,而使用交叉熵作为代价函数。Softmax函数定义为,其中代表类别的概率,而和分别代表对单元和的输入。交叉熵定义为,其中代表输出单元的目标概率,代表应用了激活函数后对单元的概率输出[32]。

深度神经网络的问题[编辑]

与其他神经网络模型类似,如果仅仅是简单地训练,深度神经网络可能会存在很多问题。常见的两类问题是过拟合和过长的运算时间。

深度神经网络很容易产生过拟合现象,因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。对此,权重递减(正规化)或者稀疏(-正规化)等方法可以利用在训练过程中以减小过拟合现象[33]。另一种较晚用于深度神经网络训练的正规化方法是丢弃法("dropout" regularization),即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模[34]。

反向传播算法和梯度下降法由于其实现简单,与其他方法相比能够收敛到更好的局部最优值而成为神经网络训练的通行方法。但是,这些方法的计算代价很高,尤其是在训练深度神经网络时,因为深度神经网络的规模(即层数和每层的节点数)、学习率、初始权重等众多参数都需要考虑。扫描所有参数由于时间代价的原因并不可行,因而小批量训练(mini-batching),即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练,被用于加速模型训练[35]。而最显著地速度提升来自GPU,因为矩阵和向量计算非常适合使用GPU实现。但使用大规模集群进行深度神经网络训练仍然存在困难,因而深度神经网络在训练并行化方面仍有提升的空间。

深度信念网络[编辑]

一个包含完全连接可见层和隐层的受限玻尔兹曼机(RBM)。注意到可见层单元和隐层单元内部彼此不相连。

深度信念网络(deep belief networks,DBN)是一种包含多层隐单元的概率生成模型,可被视为多层简单学习模型组合而成的复合模型[36]。

深度信念网络可以作为深度神经网络的预训练部分,并为网络提供初始权重,再使用反向传播或者其他判定算法作为调优的手段。这在训练数据较为缺乏时很有价值,因为不恰当的初始化权重会显著影响最终模型的性能,而预训练获得的权重在权值空间中比随机权重更接近最优的权重。这不仅提升了模型的性能,也加快了调优阶段的收敛速度[37]。

深度信念网络中的每一层都是典型的受限玻尔兹曼机(restricted Boltzmann machine,RBM),可以使用高效的无监督逐层训练方法进行训练。受限玻尔兹曼机是一种无向的基于能量的生成模型,包含一个输入层和一个隐层。图中对的边仅在输入层和隐层之间存在,而输入层节点内部和隐层节点内部则不存在边。单层RBM的训练方法最初由杰弗里·辛顿在训练“专家乘积”中提出,被称为对比分歧(contrast divergence, CD)。对比分歧提供了一种对最大似然的近似,被理想地用于学习受限玻尔兹曼机的权重[35]。当单层RBM被训练完毕后,另一层RBM可被堆叠在已经训练完成的RBM上,形成一个多层模型。每次堆叠时,原有的多层网络输入层被初始化为训练样本,权重为先前训练得到的权重,该网络的输出作为新增RBM的输入,新的RBM重复先前的单层训练过程,整个过程可以持续进行,直到达到某个期望中的终止条件[38]。

尽管对比分歧对最大似然的近似十分粗略(对比分歧并不在任何函数的梯度方向上),但经验结果证实该方法是训练深度结构的一种有效的方法[35]。

卷积神经网络[编辑]

主条目:卷积神经网络

卷积神经网络(convolutional neuron networks,CNN)由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要估计的参数更少,使之成为一种颇具吸引力的深度学习结构[39]。

卷积深度信念网络[编辑]

卷积深度信念网络(convolutional deep belief networks,CDBN)是深度学习领域较新的分支。在结构上,卷积深度信念网络与卷积神经网络在结构上相似。因此,与卷积神经网络类似,卷积深度信念网络也具备利用图像二维结构的能力,与此同时,卷积深度信念网络也拥有深度信念网络的预训练优势。卷积深度信念网络提供了一种能被用于信号和图像处理任务的通用结构,也能够使用类似深度信念网络的训练方法进行训练[40]。

结果[编辑]

语音识别[编辑]

下表中的结果展示了深度学习在通行的TIMIT数据集上的结果。TIMIT包含630人的语音数据,这些人持八种常见的美式英语口音,每人阅读10句话。这一数据在深度学习发展之初常被用于验证深度学习结构[41]。TIMIT数据集较小,使得研究者可以在其上实验不同的模型配置。

方法

声音误差率(PER,%)

随机初始化RNN 26.1

贝叶斯三音子GMM-HMM 25.6

单音子重复初始化DNN 23.4

单音子DBN-DNN 22.4

带BMMI训练的三音子GMM-HMM 21.7

共享池上的单音子DBN-DNN 20.7

卷积DNN 20.0

图像分类[编辑]

图像分类领域中一个公认的评判数据集是MNIST数据集。MNIST由手写阿拉伯数字组成,包含60,000个训练样本和10,000个测试样本。与TIMIT类似,它的数据规模较小,因而能够很容易地在不同的模型配置下测试。Yann LeCun的网站给出了多种方法得到的实验结果[42]。截至2012年,最好的判别结果由Ciresan等人在当年给出,这一结果的错误率达到了0.23%[43]。

深度学习与神经科学[编辑]

计算机领域中的深度学习与20世纪90年代由认知神经科学研究者提出的大脑发育理论(尤其是皮层发育理论)密切相关[44]。对这一理论最容易理解的是杰弗里·艾尔曼(Jeffrey Elman)于1996年出版的专著《对天赋的再思考》(Rethinking Innateness)[45](参见斯拉格和约翰逊[46]以及奎兹和赛杰诺维斯基[47]的表述)。由于这些理论给出了实际的神经计算模型,因而它们是纯计算驱动的深度学习模型的技术先驱。这些理论指出,大脑中的神经元组成了不同的层次,这些层次相互连接,形成一个过滤体系。在这些层次中,每层神经元在其所处的环境中获取一部分信息,经过处理后向更深的层级传递。这与后来的单纯与计算相关的深度神经网络模型相似。这一过程的结果是一个与环境相协调的自组织的堆栈式的转换器。正如1995年在《纽约时报》上刊登的那样,“……婴儿的大脑似乎受到所谓‘营养因素’的影响而进行着自我组织……大脑的不同区域依次相连,不同层次的脑组织依照一定的先后顺序发育成熟,直至整个大脑发育成熟。”[48]

深度结构在人类认知演化和发展中的重要性也在认知神经学家的关注之中。发育时间的改变被认为是人类和其他灵长类动物之间智力发展差异的一个方面[49]。在灵长类中,人类的大脑在出生后的很长时间都具备可塑性,但其他灵长类动物的大脑则在出生时就几乎完全定型。因而,人类在大脑发育最具可塑性的阶段能够接触到更加复杂的外部场景,这可能帮助人类的大脑进行调节以适应快速变化的环境,而不是像其他动物的大脑那样更多地受到遗传结构的限制。这样的发育时间差异也在大脑皮层的发育时间和大脑早期自组织中从刺激环境中获取信息的改变得到体现。当然,伴随着这一可塑性的是更长的儿童期,在此期间人需要依靠抚养者和社会群体的支持和训练。因而这一理论也揭示了人类演化中文化和意识共同进化的现象[50]。

公众视野中的深度学习[编辑]

深度学习常常被看作是通向真正人工智能的重要一步[51],因而许多机构对深度学习的实际应用抱有浓厚的兴趣。2013年12月,Facebook宣布雇用燕乐存为其新建的人工智能实验室的主管,这一实验室将在加州、伦敦和纽约设立分支机构,帮助Facebook研究利用深度学习算法进行类似自动标记照片中用户姓名这样的任务[52]。

2013年3月,杰弗里·辛顿和他的两位研究生亚历克斯·克里泽夫斯基和伊利娅·苏特斯科娃被谷歌公司雇用,以提升现有的机器学习产品并协助处理谷歌日益增长的数据。谷歌同时并购了辛顿创办的公司DNNresearch[53]。

批评[编辑]

对深度学习的主要批评是许多方法缺乏理论支撑。大多数深度结构仅仅是梯度下降的某些变式。尽管梯度下降已经被充分地研究,但理论涉及的其他算法,例如对比分歧算法,并没有获得充分的研究,其收敛性等问题仍不明确。深度学习方法常常被视为黑盒,大多数的结论确认都由经验而非理论来确定。

也有学者认为,深度学习应当被视为通向真正人工智能的一条途径,而不是一种包罗万象的解决方案。尽管深度学习的能力很强,但和真正的人工智能相比,仍然缺乏诸多重要的能力。理论心理学家加里·马库斯(Gary Marcus)指出:

就现实而言,深度学习只是建造智能机器这一更大挑战中的一部分。这些技术缺乏表达因果关系的手段……缺乏进行逻辑推理的方法,而且远没有具备集成抽象知识,例如物品属性、代表和典型用途的信息。最为强大的人工智能系统,例如IBM的人工智能系统沃森,仅仅把深度学习作为一个包含从贝叶斯推理和演绎推理等技术的复杂技术集合中的组成部分[54]。