视觉深度学习的局限性,以及我们如何修复它们

深造史

我们见证了深度学习的第三次兴起。前两次浪潮——20世纪50年代——60年代和80年代——90年代——引起了相当大的轰动,但慢慢失去了动力,因为这些神经网络既没有达到预期的性能,也没有帮助我们理解生物视觉系统。第三波-2000年代-现在-是不同的,因为深度学习已经超过了它的竞争对手对大量的基准和现实世界的应用。虽然在第二次浪潮中,大多数深入学习的基本思想已经形成,在大型数据集和功能强大的计算机(GPU)出现之前,它们的力量无法释放。

深度学习的兴衰,反映了智力方式的变化和学习算法的普及程度。第二次浪潮看到了古典人工智能的局限性,表现为对压倒性承诺的不切实际。80年代中期的人工智能冬季由此开始。第二波的衰落转变为支持向量机的兴起,内核方法,以及相关的方法。我们为神经网络研究者们喝彩,尽管他们很沮丧,但是请注意钟摆又摆了一次。现在很难出版任何与神经网络无关的东西。这不是一个好的发展。我们怀疑,如果研究人员追求不同的方法和技术,而不是追求当前的时尚,这一领域的进展会更快。令人倍感担忧的是,人工智能的学生课程往往完全忽视旧技术,而倾向于当前的趋势。

成功与失败

在Alexnet之前,计算机视觉社区一直对深度学习持怀疑态度。betway牛牛〔1〕在Imagenet上摧毁了所有竞争对手〔2〕2011。在接下来的几年里,视觉研究人员将提出各种各样的神经网络结构,它们在对象分类方面的性能越来越高,例如。,〔3〕 〔4〕 〔5〕.

深度学习也很快适应了其他视觉任务,如物体检测,其中图像包含一个或多个对象,背景要大得多。为了这个任务,神经网络被一个初始阶段所增强,这个阶段提出了物体可能的位置和大小的建议。这些方法优于以前的最佳方法,可变形零件模型〔6〕,请对于Pascal对象检测挑战〔7〕,请这是图像网络之前的主要目标检测和分类挑战。其他深网架构也在其他经典任务中提供了巨大的性能提升,其中许多在图1中进行了说明。

图1: 来源)深网可以执行各种各样的视觉任务。这些包括:边界检测,语义分割,语义边界,表面法线,显著性,人体部位,以及目标检测。

但尽管深度学习优于其他技术,它们不是一般用途。在这里,我们确定了三个主要限制。

首先,深度学习几乎总是需要大量的注释数据。这使得视觉研究者倾向于在注释容易而不是重要的任务上工作。

有一些方法可以减少对监督的需要,包括转移学习〔8〕 〔9〕 〔10〕,请很少有机会学习〔11〕 〔12〕 【13】,请无监督学习[14] [15],请和弱监督学习〔16〕.但是到目前为止,他们的成就并没有监督学习那么令人印象深刻。

其次,深网在基准数据集上表现良好,但在数据集之外的真实世界图像上可能会严重失败。所有数据集都有偏差。这些偏见在早期视觉数据集中尤为明显,研究人员很快学会了利用它们,例如利用背景环境(例如,在Caltech101中检测鱼很容易,因为它们是唯一的背景是水的物体)。这些问题减少了,但仍然存在,尽管使用了大数据集和深层网络。例如,如图2所示,如果从训练数据集中未充分表示的观点来看,经过训练在ImageNet上检测SOFA的深网可能无法检测到它们。特别地,深网偏向于“罕见事件”,这些事件很少发生在数据集中。但在现实世界中,这些偏差尤其有问题,因为它们可能对应于视觉系统故障可能导致可怕后果的情况。用来训练自动驾驶汽车的数据集几乎从不包含坐在路上的婴儿。

图2: 来源)Unreacv允许视觉研究人员轻松地操纵合成场景,例如通过改变沙发的视角。我们发现更快的RCNN检测沙发的平均精度(ap)在0.1到1.0之间变化。对观点极为敏感。这可能是因为训练中的偏差导致更快的RCNN支持特定的观点。

第三,深网对图像的变化过于敏感,这不会愚弄人类的观察者。.深网不仅对标准的敌方攻击敏感,而且会对图像造成难以察觉的变化。〔17〕 〔18〕但对环境变化也过于敏感。图3显示了在丛林中用照片将吉他转换成猴子图片的效果。这使得深网误认猴子是人,也误认吉他是鸟,大概是因为猴子比人类携带吉他的可能性小,而鸟类比吉他更可能在猴子附近的丛林里。〔19〕.最近的研究给出了许多深层网络对环境过于敏感的例子,比如把大象放在房间里〔20〕.

图3: 来源)添加阻塞器会导致深层网络故障。左图:阻塞的摩托车把猴子变成了人。中心:闭塞的自行车把猴子变成人,丛林把自行车把手变成鸟。右图:闭塞的吉他把猴子变成人,丛林把吉他变成鸟。

这种对上下文的过度敏感也可以追溯到数据集的有限大小。对于任何对象,数据集中只会出现有限数量的上下文,因此神经网络会偏向它们。例如,在早期的图像字幕数据集中,我们观察到长颈鹿只出现在树附近,因此生成的字幕在没有树的图像中没有提到长颈鹿,即使它们是最主要的对象。

难以捕捉各种各样的背景,以及探索大量有害因素的必要性,对于像Deep Nets这样的数据驱动方法来说,问题非常严重。似乎确保网络能够处理所有这些问题需要任意大的数据集,这对培训和测试数据集都提出了巨大的挑战。接下来我们将讨论这些问题。

当大数据集不够大时

组合爆炸

上述问题都不一定是深层次学习的破坏者,但我们认为,这些都是问题的早期征兆。即,一组真实世界的图像组合起来很大,所以对于任何数据集来说都很困难,不管有多大,代表现实世界的复杂性。

一套组合体大意味着什么?想象一下,通过从对象字典中选择对象并将其放置在不同的配置中来构建视觉场景。很明显,这可以通过指数级的方式实现。即使对于单个物体的图像,我们也可以获得类似的复杂性,因为它可以以指数级的方式被部分遮挡。我们也可以用无数种方式改变一个对象的上下文。

尽管人类自然地适应视觉环境的变化,深网更敏感,更容易出错,如图3所示。我们注意到,这种组合爆炸可能不会发生在某些视觉任务中,而深网在医学图像应用中可能非常成功,因为在上下文中变化相对较小(例如,胰腺总是非常靠近十二指肠)。但是对于许多现实世界的应用程序,如果没有指数级大的数据集,就无法捕获现实世界的复杂性。

这会带来巨大的挑战,由于在有限数量随机抽取的样本上训练和测试模型的标准范例变得不切实际,因为它们永远不会大到足以代表数据的底层分布。这迫使我们解决两个新问题:

(i)我们如何在有限大小的数据集上训练算法,以便它们能够在捕获现实世界的组合复杂性所需的真正巨大的数据集上表现良好?

(ii)如果我们只能在有限子集上测试这些算法,那么我们如何有效地测试这些算法,以确保它们在这些巨大的数据集中工作?

克服组合数学

像深网这样的方法似乎不太可能,以目前的形式,能处理组合爆炸。数据集可能永远都不足以训练或测试它们。我们在下面列出一些可能的解决方案。

组成性

组合性是一个普遍的原则,可以用诗意来描述为“一种信仰的体现,即世界是可知的,你可以把事情搞得一团糟,理解他们,然后随意地在精神上重组。关键的假设是,结构是由更基本的子结构按照一组语法规则分层组成的。这表明子结构和语法可以从有限数量的数据中学习,但可以概括为组合情况。

不像深网,组合模型需要结构表示,以明确其结构和子结构。组合模型提供了超越所见数据的外推能力,为了解释这个系统,betway牛牛干预,做诊断,并根据相同的基础知识结构回答许多不同的问题。引用斯图亚特·杰曼的话:“世界是组成的,或者上帝存在”,否则上帝就有必要用铁丝网联系人类的智慧。〔21〕.我们注意到,虽然深网捕获了一种组合性的形式,例如。,高级特征是由低级特征的响应组成的,它们不是我们在本文中所指的构图。

图4:( 来源)从(a)到(b)到(c)使用的变异性和闭塞程度越来越高。特别地,(c)是组合大数据集的一个例子,与Captchas基本相同。有趣的是,对Captchas的研究表明,组合模型可以很好地执行,而深网则表现得更差。

图4说明了组合性的一个示例〔22〕,请与合成分析有关〔23〕.

组合模型的一些概念优势已经在视觉问题上得到了证明,例如使用相同的底层模型执行多个任务的能力。〔24〕识别Captchas〔25〕.其他非视觉的例子也说明了同样的观点。尝试训练深网进行智商测试并不成功。 〔26〕在这个任务中,目标是预测3x3网格中丢失的图像,其他8个图像被给出,以及基本规则的组成部分(并且可以存在干扰因素)。相反地,对于某些自然语言应用,神经模块网络〔27〕,请其动态架构似乎足够灵活,可以捕捉到一些有意义的作品,优于传统的深度学习网络。事实上,我们最近验证了各个模块确实执行了其预期的组合功能(例如而且,或者,联合训练后过滤(红色)等【28】.

组合模型具有许多理想的理论性质,比如存在可解释的,请并且能够生成样品。这使得错误更容易诊断,因此,它们比黑匣子方法(如深网)更难被愚弄。但是学习作曲模型是困难的,因为它需要学习积木和语法(甚至语法的本质也是有争议的)。也,为了进行综合分析,他们需要有对象和场景结构的生成模型。在图像上放置分布是很有挑战性的,除了一些例外,如人脸,信件,和规则的纹理〔29〕.

从根本上讲,处理组合爆炸需要学习因果关系的三维世界的模型以及这些模型如何生成图像。对人类婴儿的研究表明,他们通过建立因果模型来学习,预测环境的结构,包括天真的物理。这种因果理解能够从有限的数据中学习,并对新情况进行真正的概括。这类似于对比牛顿定律,这给了我们以最少的自由参数来理解因果关系,太阳系的托勒密模型,它给出了非常准确的预测,但需要大量的数据来确定其细节(即周转轮)

组合数据测试

在现实世界中测试视觉算法的组合复杂性的一个潜在挑战是,我们只能在有限的数据上进行测试。博弈论通过关注最差的病例而不是一般病例。正如我们之前所说,如果数据集没有捕获问题的组合复杂性,那么有限大小数据集的平均事例结果可能没有意义。显然,如果目标是为自动驾驶汽车开发视觉算法,那么关注最坏的情况也是有意义的,或者用医学图像诊断癌症,如果算法失效会产生严重后果。

如果能在低维空间捕捉到失效模式,比如立体声的危险因素,然后我们可以用计算机图形学和网格搜索来研究它们。[30].但对于大多数视觉任务,尤其是那些涉及组合数据的,很难识别出少量可隔离和测试的危险因素。一种策略是将标准对抗攻击的概念扩展到包括非本地结构,通过允许复杂的操作来改变图像或场景,例如。,通过遮挡,或更改正在查看的对象的物理属性〔31〕,请但不会显著影响人类的感知。将这种策略扩展到处理组合数据的视觉算法仍然是非常具有挑战性的。但是,如果在设计算法时考虑到了组合性,那么它们的显式结构可能使诊断和确定它们的故障模式成为可能。

结论

几年前,Aude Oliva和Alan Yuille(第一作者)共同组织了一个由NSF赞助的计算机视觉前沿研讨会(MIT CSAIL 2011)。会议鼓励坦诚交换意见,特别是,关于深网在计算机视觉方面的潜力存在着巨大的分歧。betway牛牛颜乐坤大胆地预言,每个人很快都会使用深网。他是对的。他们的成功是非同寻常的,帮助愿景变得非常受欢迎,极大地促进了学术界与工业界的互动,将视觉技术应用到大量学科中,还有许多其他重要的后果。但是,尽管他们取得了成功,但在我们达到通用人工智能和理解生物视觉系统的目标之前,仍然存在着巨大的挑战。我们的一些担忧与最近对深层网络的批评中提到的类似。〔32〕 〔33〕.可以说,最严重的挑战是如何开发算法来应对组合爆炸,因为研究人员在越来越现实的条件下处理越来越复杂的视觉任务。虽然深网肯定是解决方案的一部分,我们相信,我们还需要补充的方法,包括合成原理和因果模型,捕捉数据的底层结构。此外,面对组合爆炸,我们需要重新考虑如何训练和评估视觉算法。

注:这是我们最初的论文“深网:他们为视觉做过什么?”的较短版本。.〔34〕


  1. Krizhevsky亚历克斯,Ilya Sutskever还有杰弗里E。Hinton。“深卷积神经网络图像网分类”,神经信息处理系统的进展。2012。γ

  2. 邓,贾等。“IMAGENET:一个大规模的层次图像数据库。”计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议。IEEE标准,2009年。γ

  3. Simonyan凯伦,还有安德鲁·齐瑟曼。“用于大规模图像识别的非常深的卷积网络”,ARXIV预印ARXIV:1409.1556(2014)。γ

  4. 他,开明等。“图像识别的深度残差学习”,《IEEE计算机视觉与模式识别会议论文集》。2016。γ

  5. 线路接口单元,辰溪等。“渐进式神经架构搜寻”,《欧洲计算机视觉会议论文集》。2018。γ

  6. 费尔泽斯沃布,Pedro F.等。“基于部分模型的目标检测”,《IEEE模式分析与机器智能汇刊》32.9(2010):1627-1645。γ

  7. 埃弗灵厄姆作记号,等。“帕斯卡视觉对象类(VOC)挑战”,《国际计算机视觉杂志》88.2(2010):303-338。γ

  8. Girshick罗斯等。“用于精确目标检测和语义分割的丰富特征层次”,《IEEE计算机视觉和模式识别会议论文集》。2014。γ

  9. 长,乔纳森,Evan Shelhamer还有特雷弗·达雷尔。“语义分割的完全卷积网络”,《IEEE计算机视觉和模式识别会议论文集》。2015。γ

  10. 陈Liang Chieh等。“Deeplab:深卷积网络的语义图像分割,阿托罗斯卷积以及完全连接的CRF。“IEEE模式分析和机器智能交易40.4(2017):834-848。γ

  11. 毛Junhua等。“像孩子一样学习:从图像的句子描述中学习快速新颖的视觉概念。”《IEEE计算机视觉国际会议论文集》。2015。γ

  12. 维纳斯,奥里奥尔等。“一次学习的匹配网络”,神经信息处理系统的进展。2016。γ

  13. 乔Siyuan等。“通过从激活中预测参数来实现少镜头图像识别”,《IEEE计算机视觉和模式识别会议论文集》。2018。γ

  14. 道尔施,卡尔Abhinav GuptaAlexei A.埃弗罗斯。“基于上下文预测的无监督视觉表示学习”,《IEEE计算机视觉国际会议论文集》。2015。γ

  15. 王萧龙还有Abhinav Gupta。“使用视频进行视觉表示的无监督学习”,《IEEE计算机视觉国际会议论文集》。2015。γ

  16. 帕潘德里欧乔治,等。“语义图像分割的深卷积网络的弱和半监督学习”,《IEEE国际计算机视觉会议论文集》。2015。γ

  17. 斯盖迪基督教的,等。“神经网络的有趣特性”,arxiv预印arxiv:1312.6199(2013)。γ

  18. 谢先生,Cihang等。“语义分割和目标检测的对立例子”,《IEEE国际计算机视觉会议论文集》。2017。γ

  19. 王建宇,等。“视觉概念与组合投票”,《数学科学与应用年鉴》3.1(2018):151-188。γ

  20. 罗森菲尔德阿米尔,Richard Zemel还有约翰·K。Tsotsos。“房间里的大象。”arxiv预印arxiv:1808.03305(2018)。γ

  21. Geman斯图尔特。“视觉的组合性。”视觉语法:基于概率语法的视觉场景理解和对象分类模型。2007。γ

  22. 比恩斯托克,ElieStuart Geman还有丹尼尔·波特。“合成性,MDL先验,和目标识别〉,《神经信息处理系统的进展》。1997年。γ

  23. 朱,宋春还有大卫·芒福德。“图像的随机语法”,《计算机图形学与视觉基础与趋势》2.4(2007):259-362。γ

  24. 朱,长,等。“零件和外观共享:多视图的递归组合模型。”计算机视觉和模式识别(CVPR)2010年IEEE会议。IEEE2010。γ

  25. 乔治,迪利普,等。“以高数据效率训练并打破基于文本的验证码的生成性视觉模型”,《科学》358.6368(2017):EAAG2612。γ

  26. 巴雷特戴维等。“神经网络中的测量抽象推理”,国际机器学习会议。2018。γ

  27. 安德烈亚斯雅各伯等。“神经模块网络”,IEEE计算机视觉和模式识别会议论文集。2016。γ

  28. 线路接口单元,润涛,等。“CLEVR REF+:用引用表达式诊断视觉推理。”ARXIV预印ARXIV:1901.00850(2019)。γ

  29. TuZhuowen等。“图像分析:统一分割,检测,《国际计算机视觉杂志》63.2(2005):113-140。γ

  30. 张,易,等。“Unrealstereo:控制危险因素分析立体视觉”,2018年国际三维视觉会议(3DV)。IEEE2018。γ

  31. ZengXiaohui等。“图像空间之外的对抗性攻击”,arxiv预印arxiv:1711.07183(2017)。γ

  32. DarwicheAdnan。“人类水平的智力还是动物般的能力?“ARXIV预印ARXIV:1707.04327(2017年)。γ

  33. 马库斯加里。“深入学习:一个关键的评估”,arxiv预印arxiv:1801.00631(2018)。γ

  34. Yuille艾伦,等。“深网:他们为视觉做了什么?”ARXIV预印ARXIV:1805.04025(2018)。γ