AI研究前沿--视觉真相:眼见为虚

作者:change?  于 2023-6-6 23:56 发表于 最热闹的华人社交网络--贝壳村

通用分类:其它日志




科学家们已经建立了一个新的人工智能系统,可以重写计算机视觉的规则。 

它可能很快就会颠覆神经科学 

 

如果大脑只是简单地处理传入的线索,它如何快速将模棱两可的数据转化为物体和场景的连贯表示? 

 

从科学角度来说,什么是常识?我们大多数人都可以联系起来但难以定义的关键事物是什么? 

 

大脑可能比我们一直认为的更有创造力。它不仅处理传入的信息,还试图推断其背后的原因 

 

一个----根据 2017 年洛克菲勒UNIV.的一项研究,人眼可以检测到的最小光子数量。 

第二名---人眼在身体器官复杂性方面的排名。只有大脑先于它。 

十三---人脑看到图像所需的毫秒数 

 

 

这张照片是明确无误的:一个辣椒切成两半。然而,当温里希·弗赖瓦尔德 (Winrich Freiwald) 在最近的一次演讲中将它投射到大屏幕上时,听众们爆发出轻声的咯咯笑声。 
 
因为虽然只有一半的蔬菜,但几乎不可能不看到其他东西——一张阴森森的绿色脸孔,眼睛是洞,牙齿是种子,焦急地盯着前方。 “我们非常清楚这是一种胡椒,”Freiwald 说,他的长腿在洛克菲勒卡斯帕里礼堂的舞台上来回踱步。 “但我们不能不看到脸。” 
 
这不是我们的错;我们的大脑配备了神经机器,其唯一任务是感知和识别面孔。这个内部面部检测器从不休息——每当某些复杂的图案撞击视网膜时,它就会被激活(参见下面的“为什么月球上有一个人”)。对神经科学家来说,这种现象不仅滑稽而且重要。胡椒脸,以及许多类似的错觉,说明了关于大脑及其与我们周围世界的关系的深刻奥秘。视觉可能是对大脑功能的最好理解,但我们似乎误解了大脑从视觉输入中获取意义的方式。 

 

“这样的例子表明,当我们看到某样东西时,大脑所做的不仅仅是记录光,”Freiwald 说,他指的是教科书中对我们如何看的描述:光从物体上反射回来,撞击视网膜,沿着视野放大视神经,瞧,大脑将电信号转换成茶杯。一方面,这种对视觉系统的规范理解并不能解释胡椒种子并不总是胡椒种子但在某些情况下可以注册为牙齿的事实。如果大脑只是简单地处理传入的线索,它如何快速将模棱两可的数据转化为物体和场景的连贯表示,比如当你在一张模糊的旧照片中认出祖母欢快的脸时? 
 
越来越多的科学家转向完全不同的观点,Freiwald 就是其中之一,他们认为我们所看到的不仅仅是外面事物的反映。它更类似于一种心理建构,认知科学家称之为推理。 “我们认为大脑有某种内部组件,不仅可以检测传入的刺激,还可以产生它们,”他解释道。 “从某种意义上说,大脑一直在产生幻觉。” 

 

几年前,Freiwald 与计算认知科学家 Joshua B. Tenenbaum 和 Ilker Yildirim 合作,他们提出了一个系统想法来测试这种视觉生成理论。科学家们一起着手构建一种新型人工智能,以探索我们识别面孔或其他物体的过程是否始于大脑本身。他们想知道的事情之一是,是否可以对机器进行编程以匹配生物实验中的观察结果。如果可以的话,将对神经科学产生深远的影响。人们逐渐清楚,他们的工作可能会产生连锁反应:机器不仅比我们思考得更快,而且在认知层面上的行为更像我们,这可能有助于推动从开发更安全的自动驾驶汽车到减缓气候变化等各方面的进步. 
 
但很大程度上取决于科学家们学到了什么。 
 
面孔是人类感知的精英类别。它们是我们在婴儿时期学会看的第一件事,随着年龄的增长,我们的社会功能在很大程度上依赖于识别家庭成员、朋友和敌人以及阅读与我们互动的人的面部表情的能力。这可能就是为什么人类和其他灵长类动物进化出专门的脑细胞来识别面孔的原因。 “这是对神经元的一种非常低效的使用,”Freiwald 说。以至于当他在研究生学习期间第一次听说这种现象时,他拒绝了这个想法。 “我认为,这对大脑来说不是一个优雅的解决方案,”他说。 “让神经元只对一个对象类别做出反应而不对其他类别做出反应?这很奇怪。 

就连在 1970 年代首次发现面部神经元的普林斯顿大学认知神经科学家查尔斯·G·格罗斯 (Charles G. Gross) 也感到困惑。又过了二十年,麻省理工学院神经科学家 Nancy Kanwisher 才确定梭形面部区域,这是大脑颞下皮层中专门用于面部识别的区域。 Freiwald 在 Kanwisher 的实验室接受博士后培训,然后加入哈佛医学院的 Margaret Livingstone,在那里他与当时的同事 Doris Tsao 合作,将大脑成像研究与单个神经元的记录结合起来。科学家们最终发现了一个由六个豌豆大小的斑块组成的网络,这些斑块几乎完全由面部神经元组成。 
 
从那时起,Freiwald 就能够非常详细地描述这些斑块的特征。他实验室的发现之一是每个贴片处理不同维度的面部信息。例如,在第一个被激活的贴片中,神经元对面部特征很敏感,例如人眼之间的距离。在中间的一个斑块中,神经元编码方向——一些喜欢右侧轮廓;其他半个人资料。最后一个补丁中的神经元对整个面孔做出反应,无论它们的方向如何。 
 
在破译了面部贴片的功能后,Freiwald 能够绘制一张面部在大脑中移动的路线图,将视觉输入转化为可识别的物体。一路上,他看到了他无法解释的事情。 
 
在一组实验中,Freiwald 的团队展示了猕猴从不同角度看到的人脸渲染图,同时监测面部贴片内的神经元活动。正如科学家们所预料的那样,在中间的一个斑块中,神经元对从不同角度看到的同一张脸的照片有不同的反应。但有一个奇怪的例外:当猴子看到镜面反射的姿势时——比如,一张脸从中心向左转 45 度的照片,而另一张同样的脸向相反方向转 45 度——神经元的反应就好像这两个图片是一样的。 
 
这种镜像对称效应是一个谜。在现实生活中,面孔不会突然从左跳到右;而是突然从左跳到右。他们从一个姿势旋转到另一个姿势。 Freiwald 和他的同事无法解释,至少不能在视觉工作原理的传统框架内解释为什么神经元被编程为镜像对称。关于大脑的连接方式,我们是否从根本上犯了错误? 
 
“我无法创造的东西,我不明白,”理论物理学家理查德·P·费曼 (Richard P. Feynman) 有句名言。对于认知神经科学家来说,了解大脑如何运作的一种方法是创建模拟其计算原理的人工智能系统。 

一次吉祥的邂逅让弗莱瓦尔德有机会做到这一点。 2013 年,他来到了新成立的大脑、思想和机器中心,这是一个位于麻省理工学院的多机构论坛,汇集了从事生物和人工智能研究的科学家。在那里,他第一次遇到并开始与 Tenenbaum 合作,Tenenbaum 是麻省理工学院的计算认知科学家,他的工作重点是了解大脑如何从感官数据中做出推论,而 Yildirim 是一名博士后研究员,由 Freiwald 和 Tenenbaum 共同指导,现在在该学院任职在耶鲁大学。 
 
三位科学家一起开始设想一种新型人工智能,可以通过训练来识别人脸。与解锁智能手机的系统类似,除了处理传入的像素之外,它们还能够进行推理并生成新数据。如果成功,它将提供一个实验系统来研究人类的一些最难以捉摸的方面,比如我们如何毫不费力地达到我们对世界的常识性理解,如此丰富的细节和意义,而我们所要做的一切都是视觉的通常包含最少信息的线索。 
 
或者,正如 Tenenbaum 曾经说过的那样:“人类如何从如此少的东西中获得如此多的东西?” 
 
人工智能正在悄悄进入我们的生活。它校对我们的电子邮件,整理我们的社交媒体信息,并检查我们的信用卡是否存在欺诈活动。然而,与该技术承诺的未来相比,这算不了什么:撰写报纸文章、辅导学生、诊断疾病。 
 
事实上,已经有计算机视觉机器在检测和分类皮肤癌方面优于医生。与许多其他技术奇迹(Siri、聊天机器人、谷歌翻译)一样,它们依赖于深度神经网络,或深度网络,旨在像人脑中的神经元网络一样运行的人工智能系统。通常,计算机视觉中使用的深度网络反映了人类视觉的传统理解,由输入层和输出层组成,中间有更多互连层。就像人类蹒跚学步的孩子一样,这些系统可以通过基本上被告知他们正在看什么来训练以识别物体,并且它们不断地重新校准内部连接,直到它们能够正确地将数据中的模式与正确的答案相关联。 

然而,亥姆霍兹的许多同时代人都驳斥了这个想法。尽管他的推理理论在 20 世纪后期在认知科学家中获得了一些普及,但它从未真正起飞,部分原因是科学家无法将复杂的推理过程与生物视觉的极快速度相协调。 
 
这不是因为缺乏尝试。 Yildirim 指出了最近基于推理方法构建生成式计算机视觉系统的努力。无论这些系统是如何设计的,它们都需要大量的迭代处理,这比大脑感知详细场景所需的 100-200 毫秒要长得多。 “对于人工智能专家和神经科学家来说,这个过程如此繁琐和缓慢一直令人不安,”他说。 “没有人相信这可能是大脑的工作方式,因为我们的感知几乎是瞬间的。” 
 
该团队有一个关于如何创建超强的生成式 AI 系统的想法。他们基本上结合了两种方法的最佳特性——已建立的深度网络的速度和处理能力以及生成系统的推理能力——构建了一种新的计算机视觉机器,称为高效逆向图形网络或 EIG。目标是将其用作大脑面部感知机制的模型,“可以说是高级视觉研究最好的领域,”Yildirim 说。 

根据研究人员的说法,所有这些都表明大脑有一些真正非凡的东西:当我们看到一张脸、一个茶杯或任何其他东西时,我们的大脑会向物体注入一种解释,产生比物体本身提供的更丰富的数据。这种推论可能会解释我们如何能够如此迅速地了解我们所看到的东西,从而可能为人类智能的一个关键方面提供一个秘诀,也许是人工智能系统众所周知缺乏的常识。 
 
“当你看到奥黛丽·赫本的照片时,你看到的不仅仅是二维排列,而是在推断 3D 中的面孔,”Freiwald 说。 “然而,这些信息并不真正存在于图片本身。我们从图像中获得更多是一种智慧。” 
 
这种智能的来源,或者说是什么使这种推论成为可能,可以被认为是嵌入我们大脑的知识结构,它指导我们的感知、思考和行动。这种知识可能部分是在进化过程中形成的,部分是通过早期生活经验形成的,例如当婴儿通过掉落吸管杯来理解重力时。一旦我们弄清楚了这个基本的物理定律,这些知识就会与我们同在,并且在我们每次接住落下的盘子时都会被调用。 
 
Tenenbaum 最近在冷泉港实验室的一次会议上说:“我们的思维围绕着对物理对象和实体、其他人类和动物以及它们如何相互作用的世界的基本理解而构建。”这种现象有时被称为“直觉理论”。 Tenenbaum 称它们为我们的常识核心。 


A scientist in his office

Yildirim 结合了深度网络和 GPU 的最佳特性来构建团队的新人工智能。照片由马修塞普蒂默斯拍摄。


“EIG 使我们向逆向工程人脑迈进了一步,”Yildirim 说,他目前正在教机器超越面部移动——识别整个身体、位置,甚至物理对象如何移动并对外力做出反应。 “这意味着我们也正走在最终提升人工智能潜力的良好道路上。” 
 
计算机很聪明,除非它们很愚蠢。尽管人工智能近年来取得了惊人的进步,但该领域的进展现在正面临僵局。自动驾驶汽车不会很快在路上疾驰——只要它们在被肥皂泡欺骗时突然猛踩刹车。在我们相信它不会把猫放进洗碗机之前,任何家庭帮手机器人都不能上线。未来将告诉我们这些系统是否可以通过整合像 EIG 那样的生成处理能力而变得更聪明。 
 
然而,对于 Freiwald 来说,同样令人兴奋的是 EIG 和类似系统可能为神经科学所做的事情。 “打造一台能够像灵长类动物大脑一样识别面孔的机器是一个巨大的里程碑,”他说。 “它向我们表明,我们已经正确地理解了大脑功能的这一方面,并​​且我们将能够应用这些知识来更广泛地研究大脑的功能。” 
 
因为我们如何看待一张脸可以从字面上和比喻上告诉我们很多关于我们如何看待世界的信息。如果知觉是由大脑塑造的,那么它基本上就是一种认知行为。然后,面部处理现象本身就很吸引人,成为探索神经过程如何转化为人性的切入点:大脑如何产生我们的思想、情感和行为,以及我们如何感知他人并适应社会环境。此外,这种看待大脑的新方法——作为我们世界模型的积极构建者——为研究自闭症谱系障碍和双相情感障碍和精神分裂症等精神疾病背后的机制提供了新的框架。 
 
“现在还为时过早,”Tenenbaum 在会议期间指出。 “那是最激动人心的时刻。” 
 

A scientist in his office

Freiwald 非常详细地描述了灵长类动物的面部感知系统。照片由马修塞普蒂默斯拍摄。 
神经系统实验室 
Winrich Freiwald 博士


Examples of pareidolia in a green pepper, house, and cup of coffee

人类非常擅长在无生命的物体中发现面孔,以至于心理学家给它起了一个词:pareidolia。这种现象实际上并不局限于面孔;人们完全有能力在任何随机的视觉模式中找到有意义的图像(问问 20 世纪早期的心理分析师赫尔曼·罗夏),甚至在乱码的听觉刺激中找到人类语言(问问保罗·麦卡特尼)。研究表明,那些坚信更高的力量或超自然力量的人更有可能在他们的吐司中看到一张脸。


A rotating mask of a human face.


Boats floating above the ocean.


An illustration of a motor neuron.


A grid of gray lines and black dots.




高兴

感动

同情

搞笑

难过

拍砖

支持

鲜花

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

关于本站 | 隐私政策 | 免责条款 | 版权声明 | 联络我们 | 刊登广告 | 转手机版 | APP下载

Copyright © 2001-2013 海外华人中文门户:倍可亲 (http://www.backchina.com) All Rights Reserved.

程序系统基于 Discuz! X3.1 商业版 优化 Discuz! © 2001-2013 Comsenz Inc. 更新:GMT+8, 2024-7-26 16:01

倍可亲服务器位于美国圣何塞、西雅图和达拉斯顶级数据中心,为更好服务全球网友特统一使用京港台时间

返回顶部