澳门银河网游|app下载

  • MIT认知科学家开发面部识别的计算机模型,执行了一系列扭转这种计算机图形程序将使用以生成面的2D表示的步骤的计算。

    MIT认知科学家开发面部识别的计算机模型,执行了一系列扭转这种计算机图形程序将使用以生成面的2D表示的步骤的计算。

    图像:研究人员礼貌

    全屏

视觉新模式

MIT认知科学家开发面部识别的计算机模型,执行了一系列扭转这种计算机图形程序将使用以生成面的2D表示的步骤的计算。

面处理的计算机模型可以揭示大脑如何这么快就产生细节丰富的视觉表现。


记者联系

萨拉·麦克唐纳
电子邮件: s_mcd@mit.edu
电话:617-253-8923
澳门银河网游app新闻办公室

媒体资源

1张图片下载

媒体访问

媒体只能从本网站的桌面版本下载。

当我们打开我们的眼睛,我们立即看到很详细的我们的环境。大脑是如何能够形成世界上的这些细节丰富的交涉如此迅速是在视觉研究中的最大的未解谜题之一。

谁研究大脑的科学家们试图复制使用视觉的计算机模型这种现象,但到目前为止,主要的模式只能执行简单得多的任务,如挑选出一个物体或对杂乱背景的脸。现在,由澳门银河网游app认知科学家领导的研究小组制作了一个计算机模型,捕捉人类视觉系统的能力,快速生成图像的细节场景描述,并提供了一些洞察大脑是如何实现这一点。

“我们试图在这个工作做的是解释的看法如何能够不只是对图像的元件安装语义标签,这样更丰富,并探讨我们如何看到所有的物理世界的问题,说:”乔希特南鲍姆,计算认知科学教授,澳门银河网游app计算机科学和人工智能实验室(CSAIL)的成员,该中心的大脑,心灵和机器(CBMM)。

新模型假定,当大脑接收视觉输入,它迅速执行一系列反向,计算机图形程序将使用以生成脸部或其它物体的二维表示的步骤的计算。这种类型的模型,被称为有效逆图形(EIG),也与从在非人灵长类动物的大脑面选择性区域电记录良好相关,这表明灵长类视觉系统可以以几乎相同的方式为所述计算机模型来组织研究人员说。

ilker耶尔德勒姆,前澳门银河网游app博士后谁现在是心理学在耶鲁大学助理教授,是论文的主要作者,今天出现在 科学的进步。特南鲍姆和winrich freiwald,神经科学教授和行为在洛克菲勒大学,是这项研究的首席作者。马里奥belledonne,研究生在耶鲁大学,也是一位作家。

逆显卡

十年的大脑视觉系统的研究已经研究的很详细,怎么光输入到视网膜转化为凝聚力的场景。这一认识有助于人工智能研究人员开发出可以复制,这个系统的各个方面,如识别面部或其他物体的计算机模型。

“视觉是大脑,我们理解是最好的,在人类和其他动物的功能方面,”特南鲍姆说。 “计算机视觉是在这一点上AI的最成功的领域之一。我们想当然地认为机器现在可以看图片和识别人脸非常好,并检测其他类型的对象“。

然而,即使是这些复杂的人工智能系统不接近到什么人的视觉系统可以做到,耶尔德勒姆说。

“我们的大脑不只是检测到有物体在那里,或者识别并把标签上的东西,”他说。 “我们看到所有的形状,几何形状,表面,纹理的。我们看到了非常丰富的世界。”

一个多世纪以前,医生,物理学家和哲学家赫尔曼·冯·亥姆霍兹的理论认为,大脑通过反转图像形成的过程中创建这些丰富的表示。他推测,视觉系统包括图像生成器,其将被使用,例如,以产生面,我们梦想过程中看到。研究人员表示,运行该发电机反向将使大脑工作向后从图像和推断出什么样的脸型或其它物体会产生图像。

然而,问题仍然:怎么可能大脑执行这个过程,被称为逆显卡,如此迅速?计算机科学家试图创造一种可以执行此壮举的算法,但最好以前的系统需要迭代处理的多个周期,以比100至200毫秒更长的大脑需要创造什么样的,你看到的详细直观表示。神经科学家相信知觉的大脑能如此迅速地进行,因为它是在大部分前馈穿过神经处理的几个分层组织层中实现。

澳门银河网游app领导的团队着手建立一种特殊的深层神经网络模型来说明如何将神经层次可以迅速推断出场景的基本特征 - 在这种情况下,特定的脸。相反,在计算机视觉中使用的标准深层神经网络,这是从标签的数据表明类的图像中的物体的培训,研究人员的网络是从反映了场景的大脑的内部表示与面的模型中训练能看起来像。

因此它们的模型学习逆转由计算机图形程序,用于产生面执行的步骤。这些图形程序开始与个人脸的三维表示,然后将其转换成二维图像,如从一个特定视点看到。这些图像可以放在任意的背景图像上。研究人员推论说,当你的梦想或想象别人的脸的精神形象大脑视觉系统可以做同样的事情。

研究人员训练他们的深层神经网络进行反向这些步骤 - 是,它与2D图像开始说,然后添加功能,例如质地,曲率和灯光,创造什么样的研究人员称之为“2.5D”表示。这些2.5D图像指定从特定视点的形状和面的颜色。那些然后被转换成3D表示,这不取决于观点。

“模型给出了在大脑中的面部的处理的系统级帐户,允许它看到图像,并最终在一个3D对象,其中包括形状和纹理的表示,通过2.5D图像的这个重要的中间阶段到达”耶尔德勒姆说。

模型性能

研究人员发现,他们的模型是由猕猴的大脑学习某些地区获得的数据是一致的。在2010年出版,freiwald研究和D要么is加州理工学院记录在这些区域神经元的活动,并分析他们如何回应25分不同的面孔,来自七个不同的角度看到的曹氏。该研究揭示了更高级别的面部处理,其中MIT团队现在hypothesizes对应于它们的反图形模型的三个阶段的三个阶段:大致,一个2.5D视点依赖性阶段;一阶段,从2.5桥梁到3d;和面表示的三维,视点不变的阶段。

“我们展示了什么是这两个三级脑的定量和定性的响应性能似乎适合非常好,顶三个层次的网络,我们已经建成的,”特南鲍姆说。

研究人员还比较了模型对在涉及从不同的角度识别面部任务人类的性能。当研究人员去除面部的纹理,同时保持其形状,或扭曲的形状,同时保持相对纹理改变的面孔这一任务变得更加困难。新车型的表现更接近人类比在国家的最先进的面部识别软件,额外的证据表明,这种模式可能更接近于模仿人类视觉系统会发生什么使用的计算机模型。

“这项工作是令人兴奋的,因为它引入中间表示可解释阶段同人脸识别的前馈神经网络模型,”尼古拉斯kriegesk要么te,在哥伦比亚大学心理学和神经科学教授,谁没有参与这项研究。 “他们的做法合并这一构想的反转是如何产生的图像模型,具有现代深前馈网络的传统观念。这是非常有趣的是,这种模式更好解释了神经表征和行为反应“。

研究人员现在计划继续测试其它图像的建模方法,包括不是面向对象,调查逆显卡是否也可以解释大脑如何感知到其他类型的场景。此外,他们认为,适应这种方法的计算机视觉可能会导致性能更好的AI系统。

“如果我们能提供证据表明这些模型可能对应于大脑如何工作,这项工作可能会导致计算机视觉研究人员能够更认真地对待,并在此相反的图形方式来感知投入更多的技术资源,”特南鲍姆说。 “大脑仍然是任何类型的机器是丰富和快速看世界的黄金标准。”

这项研究是由澳门银河网游app的中心大脑,思维,和机器,美国国家科学基金会,国家眼科研究所,海军研究办公室,纽约干细胞基金会,丰田汽车研究所和三菱电机出资。


话题: 研究, 计算机视觉, 脑与认知科学, 中心的大脑思维和机器, 计算机科学和人工智能实验室(CSAIL), 科学学院, 工程学院, 美国国家科学基金会(NSF), 人工智能, 机器学习, 神经科学

回到顶端