感觉系统/视觉系统:修订间差异
imported>Wenjie He INI |
(没有差异)
|
2021年8月14日 (六) 08:20的最新版本
Template:SensorySystems Navigation
介绍
一般而言,视觉系统依靠电磁波(EM)为生物体提供有关其周围环境的更多信息。 这些信息可能与潜在的配偶、危险和食物来源有关。 不同的有机组织具有不同的成分,这些成分构成了所谓的视觉系统。
眼睛的复杂性从简单的眼点(只不过是光敏细胞的集合)到成熟的相机。如果生物体具有不同类型的光敏细胞,或对不同波长范围敏感的细胞,那么理论上该生物体将能够感知颜色或至少是感知颜色差异。极化是电磁辐射的另一个特性,它可以被一些生物体检测到,其中昆虫和头足类动物的检测到电磁辐射极化的准确度最高。
需要注意的是,在本文中,重点是使用电磁波来“看”。诚然,一些生物体已经进化出获得视觉的替代方式,或者至少用超感官信息补充它们所看到的东西。例如,使用回声定位的鲸鱼或蝙蝠。这可能在某种意义上算作“看”,但并不完全正确。此外,”视觉“或”视觉的“这些词最常与可见波长范围内的电磁波相关联,该范围通常被定义为人类视觉的波长范围。

由于某些生物体能检测到的会低于和高于一般人类检测到电磁波频率,因此必须对可见电磁波做出更好的定义,我们将可见波长范围定义为 300nm 到 800nm 之间的电磁波波长。 这对某些物种来说似乎是武断的,但选择错误的范围,会使得某些鸟类的部分视觉范围变为不可视范围。 此外,在这个波长范围内,我们定义了某些生物的热视觉,例如蛇是非视觉的。 使用对 5000 纳米到 30,000 纳米 (IR) 之间的电磁波敏感的坑器官的蛇并不能“看到”,而是从远处以某种方式“感觉到”。 即使如此,不可视的物种还是有被记录能对准和攻击特定的身体部位。
接下来首先对不同类型的视觉系统感觉器官进行简要描述,然后详细解释人类视觉的组成部分,人类视觉通路的信号处理,最后以一个由以上阶段引起的感知结果的例子结束。
感觉器官
视觉,或“看的能力”依赖于视觉系统的感觉器官或眼睛。眼睛有许多不同的结构,其复杂程度取决于生物体的需求。不同的结构具有不同的能力,且对不同的波长敏感并具有不同的敏锐度,而且它们需要通过不同的处理方式来理解输入和不同的数量组合才能最佳地工作。检测和破译电磁波的能力已被证明是大多生命形式的宝贵能力,从而增加生物体的生存机会。生活在光线不足或完全缺乏光线的环境中的生命形式没有额外的视觉优势,最终导致视觉感觉器官萎缩,随后对其他感官的依赖得以增加(例如一些穴居动物、蝙蝠等)。有趣的是,视觉感觉器官的感觉范围被调谐到光学窗口,该光学窗口被定义为穿过大气到达地面的电磁波波长(300 纳米到 1100 纳米之间)。如下图所示。您可能会注意到其他“窗口”的存在,一个红外窗口,它在某种程度上解释了蛇的热“视觉”,以及一个射频窗口,目前没有已知的生命形式能够检测到该窗口。

随着时间的推移,眼睛进化产生出了许多结构,其中一些已经进化了多次,具有相似生态位的生物产生了相似的特征。但有一个方面是基本相同的,无论物种或感觉器官类型的复杂程度如何,称为视蛋白的光敏蛋白都在器官的形成上有很普遍的起到作用。 不过,无需过多关注分子基础,各种结构可以分为以下不同的组:
- 斑点眼
- 坑眼
- 针孔眼
- 镜片眼
- 屈光角膜
- 反光眼
- 复眼
即使是最简单的配置的眼睛也可以使生物体能够简单地感知环境光,并使生物体能够知道是否有光。通常只是光敏细胞在同一个点的集合,因此有时被称为点眼、眼点或干细胞。 通过添加更多的角结构或隐藏点眼,生物体可以获得方向信息,这是图像形成的重要条件。这些所谓的“坑眼”是迄今为止最常见的视觉感觉器官类型,在所有已知95%的物种中都可以找到。

这种方法的极端运用会导致“坑”变成一个海绵状结构,这样可以增加图像的清晰度,但图像密度有所损失。换句话说,这是在强度或亮度与锐度之间的一个折衷。 这方面的例子可以从鹦鹉螺中找到,鹦鹉螺属于鹦鹉科,被认为是活化石。它们是已知的唯一拥有这种类型的眼睛的物种,称为“针孔眼”,它完全类似于针孔相机或暗箱。此外,与更先进的相机一样,鹦鹉螺能够调整光圈的大小,从而使得图像的亮度相应降低或增加的同时,提高或降低眼睛的分辨率。像相机一样,调整强度/分辨率权衡问题的方法是运用一个镜头,一种将光聚焦到中心区域的结构,通常该区域具有更高密度的光电传感器。通过调整镜头的形状并四处移动,并控制光圈或瞳孔的大小,生物体可以适应不同的条件并专注于任何视觉场景中的特定感兴趣区域。已经提到的各种眼睛结构的最后一次升级是加入了屈光角膜,具有这种结构的眼睛将眼睛总光焦度的三分之二委托给角膜内的高折射率液体,从而实现非常高分辨率的视觉。大多数陆地动物,包括人类,都有这种特殊结构的眼睛。此外,还存在着透镜结构、透镜数量、光传感器密度、中央凹形状、中央凹数量、瞳孔形状等的许多变化,以增加所讨论的生物体的存活机会。这些变化导致即使是单一的眼睛结构类别,不同的眼睛外观也不同。为了证明这一点,下面显示了一组具有相同眼睛类别(屈光角膜眼睛)的动物照片。
| |
|
|
|
|

可以在软体动物中找到称为反射器眼睛的透镜方法的替代方法。 与使用晶状体或晶状体系统将光聚焦到眼睛后部的单个点的传统方式不同,这些生物体在眼室内具有镜状结构,将光反射到中心部分,很像抛物线盘。尽管没有已知的具有反射眼睛的生物体具有能够形成图像的能力的例子,但至少有一种鱼类,幽灵鱼将它们与“正常”的透镜眼睛结合使用。
最后一组眼睛类型常在昆虫和甲壳类动物中发现,称为复眼。 这些眼睛由许多称为小眼的功能子单元组成,每个子单元由一个小平面或前表面、一个透明的晶体锥和用于检测的光敏细胞组成。此外,每个小眼都被色素细胞隔开,确保入射光尽可能平行。 每个小眼的输出组合形成马赛克图像,分辨率与小眼单元的数量成正比。 例如,如果人类有复眼,眼睛会覆盖我们的整个面部以保持相同的分辨率。 需要注意的是,复眼有很多种,但深入研究这个话题超出了本文的范围。
不仅是眼睛的类型不同,眼睛的数量也不同。 众所周知,人类通常有两只眼睛,而蜘蛛的眼睛数量是不同的,大多数物种有8只。通常蜘蛛的不同对眼睛的大小也不同,不同大小的眼睛大小、功能也不同。 例如,在跳蛛中,2个较大的前眼,赋予蜘蛛极佳的视觉敏锐度,主要用于瞄准猎物。6只小眼睛的分辨率要差得多,但可以帮助蜘蛛避免潜在的危险。下面两张跳蛛眼睛和狼蛛眼睛的照片展示了蛛形纲动物眼睛拓扑结构的可变性。
- 蜘蛛眼的拓扑结构
-
狼蛛
-
跳蛛
视觉系统剖析
我们人类是视觉生物,并且我们的眼睛由许多组件组成。 在本章中,我们将尝试描述这些组件,从而对人类视觉的特性和功能有更深的了解。
光线进入眼球内部 - 瞳孔、虹膜和晶状体
光线通过眼睛前部的黑色光圈或瞳孔进入眼睛结构,黑色外观是用于帮助光线被眼睛内部的组织完全吸收。 只有通过瞳孔才能让光线进入眼睛,这意味着入射光的数量实际上是由瞳孔的大小决定的。 瞳孔周围的有色括约肌充当眼睛的孔径光阑。 正是这种虹膜中的色素量导致了人类眼睛的各种颜色。
除了这层色素外,虹膜还有两层睫状肌。一层称为瞳孔括约肌的圆形肌肉收缩使得瞳孔变小,另一层是称为瞳孔扩张器的平滑肌,它收缩以扩张瞳孔,这些肌肉的组合从而可以根据人的要求,扩张或收缩瞳孔。睫状肌由睫状小带控制,睫状小带也会改变晶状体的形状并将其固定在适当的位置。
晶状体位于瞳孔正后方。它的形状和特性揭示了它与相机镜头相似的用途,但它们的功能略有不同。晶状体的形状可以通过睫状小带的拉力进行调整,从而改变焦距。晶状体与角膜一起可以改变焦点,这使得它成为一个非常重要的结构,但是眼睛的总光焦度只有三分之一是由于晶状体本身造成的,它也是眼睛的主要过滤器。晶状体的纤维构成了大部分的晶状体,它们是长而细的细胞,是不同于大多数细胞的机制,以提高其透明度。与称为晶状体蛋白的水溶性蛋白质一起,它们会增加晶状体的折射率,同时纤维还在晶状体本身的结构和形状中发挥作用。

眼睛中的波束成形 - 角膜及其保护剂 - 巩膜

角膜负责眼睛总光焦度的剩余2/3,它覆盖虹膜、瞳孔和晶状体,它在穿过晶状体之前聚焦穿过虹膜的光线。 角膜只有 0.5 毫米厚,由5层组成: - 上皮:覆盖角膜表面的一层上皮组织。 - 鲍曼膜:由强胶原纤维组成的厚保护层,可保持角膜的整体形状。 - 基质:由平行胶原纤维组成的层。 这一层占角膜厚度的 90%。 - 角膜后弹力层和内皮:两层存在于充满睫状体产生的房水的眼前房。这种液体可以滋润晶状体、清洁晶状体并保持眼球内的压力。该腔室位于角膜和虹膜之间,包含一个小梁网体,通过该小梁网体,流体由施勒姆管通过后房排出。
角膜表面位于两层保护膜之下,称为巩膜和特农囊,这两个保护层都完全包围了眼球。 巩膜由胶原蛋白和弹性纤维构成,可保护眼睛免受外部损伤,这一层也产生了眼白。它被神经和血管穿透,为了视神经而保留了最大的孔。此外,它被结膜覆盖,结膜是眼球表面的透明粘膜,该膜还衬在眼睑内侧,它起到润滑剂的作用,与泪腺一起产生眼泪,可以润滑和保护眼睛。剩下的保护层,即眼睑,也起到将这种润滑剂扩散到周围的作用。
眼睛的移动 —— 眼外肌
眼球由复杂的眼外肌肌肉结构移动,眼外肌由四块直肌——下、内侧、外侧和上斜肌,和两条斜肌——下、上斜肌组成,这些肌肉的定位以及功能如下所示:

眼外肌 (2,3,4,5,6,8) 附着在眼球巩膜上,起源于津恩之环,这是一种围绕视神经的纤维肌腱。 滑轮系统是由滑车作为滑轮和上斜肌作为绳索构建的,这需要以正确的方式重定向肌肉力。 剩余的眼外肌有一条直达眼睛的路径,因此不会形成这些滑轮系统。 使用这些眼外肌,眼睛可以向上、向下、向左、向右旋转,并且可以将这些运动组合起来进行替代运动。
其他动作对于我们是否能看见来说,也很重要。聚散运动使双目视觉的一般功能成为可能。被称为扫视的无意识快速运动对于人们保持物体聚焦至关重要,扫视是眼睛在扫视视野时为了稍微移动注视点而进行的一种抖动运动。 当您注视移动物体时,您的眼睛会执行所谓的平滑跟踪。称为眼球震颤的无意识运动是由来自前庭系统的信号引起的,它们共同构成了前庭眼反射运动。
脑干控制眼睛的所有运动,不同的区域负责不同的运动。
- 脑桥:快速的水平运动,如眼跳或眼球震颤
- 中脑:垂直和扭转运动
- 小脑:微调
- 动眼神经副核:聚散运动
视觉接收发生的地方 —— 视网膜

在被转导之前,传入的电磁波会先经过角膜、晶状体和黄斑,这些结构还充当过滤器以减少不需要的电磁波,从而保护眼睛免受有害辐射。 这些元素中的每一个的过滤响应都可以在“角膜、晶状体和色素上皮执行的光的过滤”图中看到。 正如人们所观察到的那样,角膜会衰减较低的波长,而使较高的波长几乎不受影响。 透镜可阻挡 400nm 以下约 25% 的电磁波,以及 430nm 以下 50% 以上的电磁波。 最后,色素上皮细胞是光接收之前过滤的最后阶段,影响 430nm 到 500nm 之间约 30% 的电磁波。
作为眼睛的一部分,锯齿缘标志着从非感光区域到感光区域的过渡。 感光区域被称为视网膜,它是眼睛后部的感觉结构,视网膜由下面呈现的多层组成,具有数百万个称为杆状和锥状体的光感受器,它们捕获光线并将其转换为电脉冲, 这些脉冲的传递是由神经节细胞紧张地发起并通过视神经进行的,视神经是信息离开眼睛的唯一途径。

右图显示了视网膜结构的概念图,我们可以看到,视网膜有五种主要的细胞类型:
- 感光细胞
- 水平单元格
- 双极细胞
- 无分泌细胞
- 神经节细胞
感光细胞可以进一步细分为杆状和锥状两种主要类型。 在视网膜的大部分区域,视锥细胞的数量远少于视杆细胞,但在黄斑部,尤其是在其中央部分,称为中央凹,有大量视锥细胞聚集在一起。 在这个中心区域,每个感光锥都与一个神经节细胞相连。 此外,该区域中的锥体略小于平均锥体尺寸,这意味着您在每个区域会有更多锥体。 由于这个比例,以及视锥细胞的高密度,中央凹是我们视力灵敏度最高的地方。

存在3种类型的人体视锥细胞,每种视锥细胞都对特定范围的波长做出反应,这是因为光视蛋白的三种色素。 每种色素对红色、蓝色或绿色波长的光敏感程度不同,因此我们有蓝色、绿色和红色锥体,也称为 S-、M- 和 L-锥体,因为它们分别对短、中和长波长敏感。它由称为视蛋白的蛋白质和称为视网膜的结合发色团组成。视锥细胞的主要组成部分是突触末端、内节和外节、内核和线粒体。

3种锥体的光谱灵敏度:
- S-视锥细胞吸收短波光,即蓝紫色光,S锥的最大吸收波长为 420nm。
- M-视锥细胞吸收蓝绿色至黄光,在这种情况下最大吸收波长为 535nm。
- L-视锥细胞吸收黄光至红光,最大吸收波长 565nm。
内段包含细胞器和细胞的细胞核和细胞器,色素位于外段,作为细胞膜内陷内的跨膜蛋白附着在膜上,形成膜状圆盘,在显示杆状和锥状细胞基本结构的图中清晰可见。圆盘使细胞的接收面积最大化。许多脊椎动物的锥形光感受器包含称为油滴的球形细胞器,被认为构成眼内过滤器,可用于增加对比度、减少眩光和减少由线粒体从外围到中心的大小梯度引起的色差。
视杆的结构类似于视锥细胞,但它们含有色素:视紫红质,这使它们能够检测低强度光,并使它们的灵敏度比视锥细胞高100倍。视紫红质是在人类视杆细胞中发现的唯一色素,它位于色素上皮的外侧,类似于锥体,通过采用盘状结构来最大化吸收面积。与锥体类似,细胞的突触末端将其与双极细胞连接起来,内节和外节由纤毛连接。
色素视紫红质吸收 400-600nm 之间的光,吸收的峰值在500nm左右,该波长对应于绿蓝色光,这意味着蓝色在夜间比红色更强烈。

波长在 400-700 nm 范围之外的电磁波不会被视杆或视锥体检测到,这意味着它们对人类是不可见的。
水平细胞占据视网膜的内核层。有两种类型的水平细胞,并且两种类型都会因为光线作用而超极化,即它们会变得更负极化。 A 型由称为 HII-H2 的亚型组成,主要与 S 锥相互作用。 B 型细胞由一种称为 HI-H1 的亚型组成,其特征是树突树和轴突。前者主要接触 M 和 L 锥细胞,后者主要接触杆细胞。与锥体的接触主要通过抑制性突触进行,而细胞本身则通过间隙连接连接到网络中。
双极细胞在外丛状层内散布单个树突,在内核层中可以发现其细胞体。其树突仅与锥体和杆体互连,我们借一个杆状双极细胞和九个或十个锥形双极细胞进行区分。这些细胞使用轴突,通过内丛状层中的无长突或神经节细胞进行分支。杆状双极细胞连接到三联突触或 18-70 个杆状细胞。它们的轴突围绕内丛状层突触末端展开,突触末端包含带状突触,并与双联突触中的一对细胞突接触。它们通过 AII 无长突细胞链接与神经节细胞相连。
无长突细胞可见于内核层和视网膜的神经节细胞层,有时它们位于内部丛状层中用作信号调制器。根据它们的大小,它们被分为窄域、小域、中域或宽域。然而,多种分类方式导致超过 40 种不同类型的无长突细胞。
神经节细胞是视觉信号从视网膜到大脑的最终传送器。视网膜中最常见的神经节细胞是小型神经节细胞和阳伞神经节细胞。通过所有视网膜层后的信号被传递到这些细胞,这些细胞是视网膜处理链的最后阶段。在这里收集的所有信息都转发给视网膜神经纤维和视神经。神经节轴突融合形成视神经的部位称为视盘。该神经主要由视网膜神经节轴突和波特细胞构成。大多数轴突将数据传输到外侧膝状体核,这是大部分神经的终止连接,并将信息转发到视觉皮层。一些神经节细胞也会对光作出反应,但由于这种反应比杆状和锥状细胞的反应慢,因此被认为与感知环境光水平和调节生物钟有关。

信号处理
如前所述,视网膜是眼睛的主要组成部分,因为它包含所有对光敏感的细胞,没有它,眼睛将与没有电荷耦合器件传感器的数码相机相媲美。 这部分详细阐述了视网膜如何感知光线、光信号如何传递到大脑以及大脑如何处理信号以形成足够的信息以进行决策。
初始信号的创建 —— 光电传感器功能
视觉总是从照射到视网膜中发现的光敏细胞的光开始。吸收光的视觉色素、视网膜杆和视锥细胞中的各种酶和递质将启动从可见电磁波刺激到电脉冲的转换,这一过程称为光电转导。以杆为例,传入的可见电磁波会击中视紫质分子,即在杆的外盘结构中发现的跨膜分子,每个视紫质分子由一组称为视蛋白的螺旋组成,这些螺旋包裹并围绕着 11-顺式视黄醛,这是分子中会因来自入射光子的能量而发生变化的部分。在生物分子中,由于这种能量而引起构象变化的分子部分或部分有时称为发色团。 11-顺式视黄醛响应传入的能量而变直,变成视黄醛(全反式视黄醛),这迫使视蛋白螺旋进一步分开,导致特定的反应位点被发现。这种“活化的”视紫红质分子有时被称为金属视紫红质 II。从此,即使可见光刺激停止,反应也会继续。然后,金属视紫红质 II 可以与大约 100 个称为转导的 G_s 蛋白分子发生反应,GDP 换算成 GTP 后产生 a_s 和 ß亚基。然后激活的 a_s-GTP 与 cGMP-磷酸二酯酶 (PDE) 结合,抑制正常的离子交换功能,导致细胞溶胶中阳离子离子浓度降低,从而导致细胞极化发生变化。
天然的光电转导反应具有惊人的放大能力。由单个光量子激活的单个视网膜视紫质分子每秒可水解多达 10^6 个 cGMP 分子。
光转导

- 光子与感光器中的视网膜相互作用。视黄醛经历异构化,从 11-顺式变为全反式构型。
- 视网膜不再适合视蛋白结合位点。
- 因此,视蛋白会发生构象变化,变成金属视紫红质 II。
- 金属视紫红质 II 不稳定并分裂,产生视蛋白和全反式视黄醛。
- 视蛋白激活调节蛋白转导蛋白。这导致转导蛋白与其结合的 GDP 解离,并结合 GTP,然后转导蛋白的 α 亚基与 β 和 γ 亚基解离,而 GTP 仍与 α 亚基结合。
- α 亚基-GTP 复合物激活磷酸二酯酶。
- 磷酸二酯酶将 cGMP 分解为 5'-GMP。这降低了 cGMP 的浓度,因此钠通道关闭。
- 由于持续的钾电流,钠通道的关闭导致细胞超极化。
- 细胞的超极化导致电压门控钙通道关闭。
- 随着感光细胞中钙含量的下降,细胞释放的神经递质谷氨酸盐的量也会下降。这是因为含有谷氨酸的囊泡与细胞膜融合并释放其内容物需要钙。
- 光感受器释放的谷氨酸量的减少导致中心双极细胞(双极细胞上的杆状和锥状细胞)去极化和锥状双极细胞的超极化。
在没有可见光刺激的情况下,含有离子、蛋白质和其他分子混合物的杆状细胞的膜电位差约为 -40mV。 与其他神经细胞相比,这是相当高的(-65mV)。 在这种状态下,神经递质谷氨酸不断从轴突末端释放出来并被相邻的双极细胞吸收。 随着传入的可见光和前面提到的级联反应,电位差下降到 -70mV。 细胞的这种超极化导致释放的谷氨酸数量减少,从而影响双极细胞的活性,并随后影响视觉通路中的以下步骤。
类似的过程存在于视锥细胞和光敏神经节细胞中,但使用不同的视蛋白。 光蛋白酶 I 到 III(分别为黄绿色、绿色和蓝紫色)存在于三种不同的视锥细胞中,而黑视蛋白(蓝色)存在于光敏神经节细胞中。
视网膜中的信号处理

不同的双极细胞对释放的谷氨酸的变化有不同的反应。所谓的 开型(ON) 和 关型(OFF) 双极细胞用于形成从锥体到双极细胞的直接信号流。 开型双极细胞将通过可见光刺激去极化,相应的开型神经节细胞将被激活。另一方面,关型双极细胞被可见光刺激超极化,关型神经节细胞受到抑制。这是直接信号流的基本路径。横向信号流将从杆开始,然后进入双极细胞、无长突细胞和被杆无长突细胞抑制的关型双极细胞和开型双极细胞将通过电突触刺激,通过之前的步骤,信号将到达开型或关型神经节细胞,并建立横向信号流的整个通路。
当动作电位 (AP) 处于开启状态(ON)时,神经节细胞将被可见光刺激触发。当传感器电位增加时,AP 频率会增加。换句话说,AP 取决于传感器电位的幅度。刺激和抑制作用影响 AP 频率的神经节细胞区域称为感受野 (RF)。在神经节细胞周围,RF 通常由两个区域组成:中央区和环状外围区,这两个区域在可见光适应期间是可区分出来的。中心区域上的可见光刺激可能导致 AP 频率增加,而外围区域上的刺激将降低 AP 频率。当光源开启时,激发发生,所以开型ON场指的区域就是指这种区域。当然,关型 OFF 神经节细胞的 RF 以相反的方式起作用,因此被称为“关型OFF 场”(中央场 OFF)。 感受野由水平单元组成,外围区域的冲动会被推动并传递到中心区域,在那里形成所谓的刺激对比,此特性将使黑暗看起来更暗,光线更亮。如果整个感受野暴露在光线下,中间区域的冲动将占主导地位。
到大脑皮层的信号传输
如前所述,神经节细胞的轴突会聚在视网膜的视盘上,形成视神经,这些纤维以特定顺序位于神经束内。来自视网膜黄斑区的纤维位于神经束中央部分,来自视网膜颞侧的纤维占据神经束的周边部分。当这些纤维位于眼腔外时,会发生部分交叠或交叉,来自每个独立视网膜的鼻半部的神经交叉到对面的半部并逐步延伸到大脑,那些来自颞边的神经仍然没有交叉。这种部分交叉称为视交叉,经过这一点的视神经称为视束,这样的称呼主要是为了区别于单一的视网膜神经。部分交叉的功能是将双眼产生的右手视野仅传输到大脑的左手半部,反之亦然。因此,当到达前脑的后部(间脑)时,来自身体右半部和右视野的信息都被传递到大脑的左手部。

视束纤维和神经细胞之间的信息传递发生在外侧膝状体,视觉信号处理的中心部分,位于大脑丘脑。信息从这里传递到大脑相应侧枕叶皮层的神经细胞。从视网膜到大脑的连接可以分为“小细胞通路”和“大细胞通路”。细小细胞通路发出颜色和精细细节的信号,而巨细胞通路检测快速移动的刺激。

来自标准数码相机的信号大致对应于细小细胞通路的信号。为了模拟大细胞通路的反应,研究人员一直在开发神经形态感觉系统,试图模拟神经系统中基于尖峰的计算。因此,他们使用称为“地址-事件表示”的方案在神经形态电子系统中进行信号传输(Liu 和 Delbruck 2010 [1])。
在解剖学上,视网膜大神经节细胞和细小神经节细胞分别投射到外侧膝状核 (LGN) 的2个腹侧大细胞层和4个背侧小细胞层。六个LGN层中的每一层都接收来自同侧或对侧眼的输入,即左眼的神经节细胞交叉并投射到右LGN的第 1、4 和 6 层,而右眼神经节细胞投射(未交叉)到它的第 2、3 和 5 层。从这里开始,来自右眼和左眼的信息被分开了。

虽然人类的视觉是由两半视网膜结合,信号由相对的大脑半球处理,但视野被认为是一个平滑完整的单位。因此,两个视觉皮层区域被认为是紧密相连的,这种称为胼胝体的连接由神经元、轴突和树突组成。因为树突与半球的相关点形成突触连接,一个半球上每个点的电模拟表明另一个半球上互连点的模拟,这条规则的唯一例外是初级视觉皮层。
突触由外侧膝状体各层中的视束构成,然后这些三级神经细胞的轴突向上传递到大脑皮层每个枕叶的距状裂。因为来自视网膜神经细胞的白色纤维带和轴突对穿过它,所以它被称为条纹皮层,顺便提一下,它是我们的初级视觉皮层,有时被称为 V1。在这一点上,来自分开的眼睛的脉冲会聚到共同的皮层神经元,然后使来自一个区域的双眼的完整输入用于感知和理解。模式识别是大脑这一特定部分的一项非常重要的功能,病变会导致视觉识别或盲视问题。
根据视束纤维将信息传递到外侧膝状体然后再传递到纹状区域的有序方式,如果在视网膜上发现一个单点刺激,则会在外侧膝状体和纹状皮层中产生电响应,该电响应往往对应于视网膜斑点的一个特定小区域,这是一种明显的点对点信号处理方式。如果整个视网膜受到刺激,外侧膝状体和纹状皮层灰质整个区域都会发生反应。可以将这个大脑区域映射到视网膜区域或者视野区域是可能的。
此通路中的更进一步的介绍超出了本书的范围。视觉系统中却有存在许多更多的层次和中心,专注于不同的特定任务,例如颜色、方向、空间频率、情绪等。
视觉系统中的信息处理
基于对视觉系统中信号处理的一些重要的概念的坚实的理解,我们可以对处理过的感官信息的理解或感知,这块拼图的最后一个重要部分进行更深的了解。 视觉感知是将眼睛接收到的信息转化为对事物外部状态的理解的过程, 它让我们了解我们周围的世界,并让我们更好地了解它。 基于视觉感知,我们学习到其中的特征,然后在以后的生活中应用这些特征,并基于此和基于获得的信息做出决定。 换句话说,我们的生存取决于感知。 由于视觉的处理过于复杂,并且需要许多不同的机制来感知所见到的内容,视觉感知领域又被划分为不同的子领域。 这些子领域包括:颜色感知、运动感知、深度感知和人脸识别等。
灵长类视觉皮层的深层层次结构

尽管电子系统的计算能力不断增强,但仍有许多任务在动物和人类方面远远优于计算机——其中之一是信息的感知和情境化。经典计算机,无论是您手机中的计算机还是占据整个房间的超级计算机,本质上都是一个数字处理器,它可以在极短的时间内执行大量的计算,它缺乏的是创建它正在使用的信息的抽象表示。如果将相机连接到计算机,它“感知”的图片只是一个像素网格,一个二维数字数组,而人类会立即识别场景的几何形状、图片中的对象,甚至可能是正在发生的事情的背景。我们的这种能力是由专门的生物机器——大脑的视觉系统提供的。它以分层的方式处理我们看到的一切,从图像的简单特征到更复杂的特征,一直到将对象分类,因此,据说视觉系统具有很深的层次结构。灵长类视觉系统的深层层次结构启发了计算机科学家创建人工神经网络模型,这些模型还具有多个层级,其中每个层级都可以对输入数据进行更高的抽象提取。
大约一半的人脑新皮层专用于视觉,视觉信息的处理发生在至少 10 个功能级别上。早期视觉区域中的神经元在视觉空间的小局部区域上提取简单的图像特征,随着信息被传输到更高的视觉区域,神经元会对越来越复杂的特征做出反应。随着更高级别的信息处理,表示的内容变化会更小——对确切的特征大小、旋转或位置不太敏感。此外,较高视觉区域中神经元的感受野大小增加,表明它们已调整到更全局的图像特征。这种分层结构允许高效计算的实现——不同的较高视觉区域可以使用在较低区域计算的同样的信息。而在早期视觉区域进行的通用场景的描述,会被大脑的其他部分用来完成各种不同的任务,例如物体识别和分类、抓取、操纵、运动规划等。
皮层下视觉
视觉信息的神经处理在任何皮质结构之前就已经开始,视网膜上的光感受器检测光线并向视网膜神经节细胞发送信号。光感受器的感受野大小是 100 度(当你的手臂伸到你面前时,一个 1 度大的感受野大约是你的拇指大小)。神经节细胞的输入数量及其感受野大小取决于位置——在视网膜中央,它接收来自五个受体的信号,而在外围,单个细胞可能有数千个输入。这意味着最高的空间分辨率位于视网膜的中心,也称为中央凹,由于这一特性,灵长类动物拥有引导视力的凝视控制机制,从而使感兴趣的特征投射到中央凹上。
神经节细胞被选择性地调整以检测图像的各种特征,例如亮度对比度、颜色对比度以及运动的方向和速度,所有这些特征都是在后续处理上会进一步调用的主要信息。如果存在无法被神经节细胞检测到的视觉刺激,那么它们的信息也不会被任何皮质视觉区域获得。
神经节细胞投射到丘脑中称为外侧膝状体核 (LGN) 的区域,该区域又将信号传递到大脑皮层。在LGN中没有已知的重要计算——视网膜神经节和 LGN 细胞之间几乎是一一对应的。然而,LGN 只有 5% 的输入来自视网膜——所有其他输入都是来自皮层的反馈投射。尽管视觉系统通常被视为前馈系统,但循环反馈连接和横向连接是整个视觉皮层的常见特征。反馈的作用尚未完全理解,但建议将其归因于注意力、期望、想象和填补缺失信息等过程。
皮质视觉

视觉皮层可以分为三大部分: 第一部分是枕叶部分,它接收来自 LGN 的输入,然后将输出发送到背侧和腹侧流。枕部包括区域 V1-V4 和 MT,它们处理视觉信息的不同方面并产生通用的场景表示。背侧通路参与空间分析和行动计划。腹侧通路参与物体识别和分类。
V1 是第一个处理视觉信息的皮层区域。它对边缘、光栅、线端、运动、颜色和视差(一个点在左右视网膜上的投影之间的角度差异)敏感。分层自下而上处理的最直接示例是来自多个神经节细胞的输入与中心环绕感受野的线性组合,以创建条形的特征。这是由 V1 的简单细胞完成的,最早由著名的神经科学家 Hubel 和 Wiesel 发现和描述。这种类型的信息集成意味着,简单细胞对条形的确切位置很敏感,并且具有相对较小的感受野。 V1 的复杂单元格接收来自简单单元格的输入,同时也响应线性定向模式,它们对条的确切位置不敏感,并且具有更大的感受野。此步骤中存在的计算可以是类似取最大值的操作,其产生的响应幅度与单个较大刺激的响应相似。一些简单和复杂的细胞也可以检测到条形的末端,一小部分 V1 细胞对它们各自感受野内的局部运动也敏感。
区域 V2 具有更复杂的轮廓处理和表示,包括纹理定义的轮廓、虚幻的轮廓和具有边界所有权的轮廓。 V2 建立在 V1 中的绝对视差检测的基础上,其中的特征细胞对相对视差(空间两点的绝对视差)敏感。区域 V4 接收来自 V2 和区域 V3 的输入,但对 V3 中发生的计算知之甚少。区域 V4 具有对具有不同曲率的轮廓和具有特定角度的顶点敏感的神经元。另一个重要特征是针对亮度不变色调的编码,这与 V1 形成对比,在 V1 中,神经元响应沿着两个主轴(红-绿和黄-蓝)而不是实际颜色的颜色。 V4 进一步输出到腹侧流,到下颞叶皮层 (IT),通过病变研究表明这个区域对于物体辨别至关重要。
颞下皮层:物体辨别

颞下皮层 (IT) 分为两个区域:TEO 和 TE。区域 TEO 集成了多个轮廓元素的特征形状和相对位置的信息,主要是用于响应简单的特征组合。 TEO神经元的感受野大小约为3-5度,TE 区域的细胞具有明显更大的感受野(10-20 度),可以响应面部、手和复杂的特征配置。 TE 中的细胞对视觉特征做出反应,这些视觉特征是对感兴趣对象的更简单概括,但比简单的条形或斑点更复杂,Tanaka 等人使用刺激减少方法证明了这一点: 首先测量针对对象的响应,然后用更简单的表示替换对象,直到 TE 神经元响应的关键特征缩小。
似乎 IT 中的神经元会将腹侧流中较低级别的各种中等复杂性特征汇集在一起,以构建对象部分的模型。 TE 中对特定对象有选择性的神经元必须满足两个看似矛盾的要求——选择性和不变性。他们必须通过对视网膜图像中特征的敏感性来区分不同的物体。然而,在不同的光线条件下,可以从不同的角度和距离观察同一物体,从而产生同一物体的高度不同的视网膜图像。为了将所有这些图像视为等效,必须导出对某些变换(例如位置、光照、视网膜大小的变化等)具有鲁棒性的不变特征。 TE 区域中的神经元对位置和大小以及部分遮挡,深度位置和照明方向 表现出不变性,深度旋转已被证明具有最弱的不变性,除非对象是人脸。
对象类别尚未明确存在于区域 TE 中——神经元通常可能对同一类别的几个但并非所有样本做出响应(例如树木的图像),也可能对不同类别的样本(例如,树木和非树)做出响应。对象识别和分类很可能涉及从大量 TE 神经元中采样以及从其他大脑区域接收输入这一过程,例如负责理解场景上下文的区域。最近的读出实验表明,可以训练统计型分类器(例如支持向量机)根据少量 TE 神经元的响应对对象进行分类。因此,原则上,一群 TE 神经元可以通过它们的组合活动可靠地发出对象类别的信号。有趣的是,也有报道称内侧颞叶中的高度选择性神经元会对非常特定的线索做出反应,例如,对不同图像中的比萨斜塔或对特定的人脸做出反应。
视觉系统中的学习
通过学习可以改变神经元的视觉特征的选择性,学习的效果在更高的大脑皮层上会变得更强。 目前没有关于在视网膜中学习的已知证据,而且 V1 中的方向图似乎在很大程度上是通过遗传预先确定的,然而,通过增加调谐曲线的斜率的方式去练习方向识别,可以改善 V1 神经元中的方向编码。 在 V4 中已经看到类似且更大的影响。 在 TE 区域,相对较少的视觉训练,对视觉感知、单细胞感知水平以及 fMRI 具有显着的生理影响。 例如,将两个对象相互变形,会增加它们感知的相似性。 总的来说,即使是成人的视觉皮层似乎也具有相当大的可塑性,并且可塑性水平可以通过外界方式获得显著提升,例如通过服用特定药物或生活在丰富的环境中。
深度神经网络
类似于灵长类视觉系统的深层层次结构,深度学习架构试图通过使用多级非线性变换来对输入数据的高级抽象进行建模。 Hubel 和 Wiesel 提出的模型在从视网膜和 LGN 到 V1 中的简单细胞和复杂细胞的级联中整合和传播信息,激发了第一个深度学习架构之一的创建,即新认知机——一种多层人工神经网络模型。它被用于不同的模式识别任务,包括手写字符的识别。然而,训练网络花费了大量时间(以天为单位),自从 1980 年代深度学习问世以来,直到 2000 年代中期,随着数字数据的丰富和更快的训练算法的创造,深度学习才得以获得更多的关注。不久前深度神经网络已被证明在似乎只有人类才能执行的任务中非常有效,例如识别照片中特定人物的面孔、理解人类语音(在某种程度上)和翻译外语文本。此外,它们已被证明在工业和科学中对寻找潜在的候选药物、绘制大脑中的真实神经网络和预测蛋白质的功能有很大帮助。必须指出的是,深度学习只是很松散地受到大脑的启发,它更像是计算机科学/机器学习领域的成就,而不是神经科学。基本的相似之处在于,深度神经网络由以非线性方式整合信息输入(神经元)并相互发送信号(突触)的单元组成,并且数据有不同级别的越来越抽象的表示。深度学习中使用的“神经元”的学习算法和数学描述与大脑中发生的实际过程大不相同。因此,深度学习的研究在大力推动更复杂的人工智能的同时,只能提供有限的关于大脑的见解。
参考文献
- 关于视觉系统深层层次结构的论文:
- 视觉刺激减少实验:
- 视觉系统的学习的证据:
- 对深度学习研究现状的最新且可访问的概述:
运动感知
运动感知是推断运动物体的速度和方向的过程。人类的 V5 区域和灵长类动物的 MT(中颞区)区域负责皮层运动感知。 V5 区是纹外皮层的一部分,它是大脑枕部区域中靠近初级视觉皮层的区域。V5区域的功能是检测视觉刺激的速度和方向,并将局部视觉运动信号整合到全局运动中。 V1 区或初级视觉皮层位于大脑的两个半球的枕叶,它处理视觉信息皮层处理的第一阶段,该区域包含眼睛覆盖的视野的完整地图。区域V5和区域V1(初级视觉皮层)的区别在于,区域V5可以将局部信号或物体个别部分的运动整合成整个物体的全局运动。另一方面,区域 V1 响应感受野内发生的局部运动,来自这些许多神经元的模拟预估会被整合到区域 V5 中。
运动被定义为视网膜照明随空间和时间的变化,运动信号分为一阶运动和二阶运动,这些运动类型将在以下段落中简要描述。

- 一阶运动感知* 是指当两个或多个视觉刺激随着时间的推移打开和关闭,并产生不同的运动知觉时所感知到的运动。一阶运动也被称为“视在运动”,它被用于电视和电影。一个例子是“Beta 运动”,这是一种错觉,其中固定的图像似乎在移动,即使它们在现实中并没有移动。这些图像给出了运动的表象,因为它们的变化和移动速度比眼睛可以检测到的速度快。这种视错觉的发生是因为人类的视神经以每秒十个周期对光的变化做出反应,所以任何比这个速度更快的变化将被注册为连续运动,而不是单独的图像。
- 二阶运动感知*是指当运动轮廓由对比度、纹理、闪烁或其他一些不会导致图像亮度或运动能量增加的质量定义时发生的运动。证据表明,一阶运动和二阶运动的早期处理是通过不同的途径进行的。二阶机制具有较差的时间分辨率,并且在它们响应的空间频率范围方面是低通的,二阶运动产生的运动后效较弱。一阶和二阶信号会组合在 V5 中。
在本章中,我们将分析运动感知和运动分析的概念,并解释这些术语不应互换使用的原因。我们将分析感知运动的机制,例如运动传感器和特征跟踪,存在三种主要的理论模型试图描述运动神经元传感器的功能,并且已有相关的实验测试用来确认这些模型是否准确。但是这些测试的结果尚无定论,可以说这些模型中没有一个完全描述了运动传感器的功能。但是,这些模型中的每一个都模拟了运动传感器的某些功能,描述了这些传感器的一些特性。最后,本章展示了一些运动错觉,它们表明我们的运动感可能会被静态的外部因素误导,这些因素以与运动相同的方式刺激运动传感器。
运动分析和运动感知
“运动分析”和“运动感知”的概念经常被混淆为可互换的。运动感知和运动分析彼此很重要,但它们并不相同。
“运动分析”是指处理运动信号的机制。与运动感知不一定依赖于视网膜中图像运动产生的信号类似,运动分析可能会也可能不会导致运动感知。这种现象的一个例子是矢量现象,当一个人在静止时却因为她观察到的物体的移动,而感知到她自己在移动。矢量现象表明对象的运动可以被用来分析,即使该运动并不被感知为对象产生的运动。运动分析的这个定义表明运动是一个基本的图像属性。在视野中,每一个点都被分析,并且该分析的结果用于推导出感知信息。
“运动感知”是指获取有关图像中物体和表面运动的感知知识的过程。运动是通过视网膜中的精细局部传感器或通过特征跟踪来感知的。类似于专门对颜色敏感的传感器,局部运动传感器对应于专门对运动敏感的神经元。特征跟踪是一种感知运动的间接方式,它包括从物体在视网膜的位置随时间的变化而推断出的运动,它也被称为三阶运动分析。特征跟踪的工作原理是将注意力集中在特定对象上并观察其位置随时间的变化。
运动传感器
运动检测是视觉处理的第一阶段,这要归功于专门的神经过程,这些过程对有关图像强度随时间局部变化的信息做出响应。独立于其他图像属性,运动会在图像的所有位置进行感测。现在已经证明了运动传感器的存在,并且它们在本地图像中的所有点上运行。运动传感器是位于视网膜中的专用神经元传感器,能够检测由两个短暂而微小的闪光产生的运动,这些闪光靠得太近以至于特征跟踪无法检测到它们。现在存在三种主要模型试图描述这些专用传感器的工作方式,这些模型相互独立,它们试图对运动感知的特定特征进行建模,尽管没有足够的证据支持这些模型中的任何一个代表视觉系统(特别是运动传感器)感知运动的方式,但它们仍然正确地模拟了这些传感器的某些功能。

Reichardt 探测器
Reichardt 检测器用于模拟运动传感器如何响应一阶运动信号。当物体从视野中的 A 点移动到 B 点时,会产生两个信号:一个是在运动开始前,另一个是在运动完成后。该模型通过检测视网膜上某一点的亮度变化,并在短暂延迟后将其与附近另一点的亮度变化相关联来感知这种运动。 Reichardt 检测器基于相关性原理(涉及依赖的统计关系)运行。它通过相邻点的亮度信号的时空相关性来解释运动信号。它利用了一个事实,即运动物体轨迹上不同点的两个感受野接收同一信号的时移版本——亮度模式沿轴移动,轴上一点的信号是轴中的先前信号。 Reichardt 检测器模型具有两个空间分离的相邻检测器。检测器的输出信号按以下方式相乘(相关):一个信号乘以作为原始时移版本的第二个信号。重复相同的过程,但运动方向相反(时移的信号成为第一个信号,反之亦然)。然后,取这两个乘法之间的差,结果给出运动速度,探测器的响应取决于刺激的相位、对比度和速度,许多以不同速度调谐的检测器对于编码模式的真实速度是必要的。这种探测器最引人注目的实验证据来自对几乎不可见目标的方向辨别的研究。
运动能量过滤
运动能量滤波器是一种基于相位不变滤波器原理的运动传感器模型。该模型构建面向时空的时空过滤器,以匹配移动模式的结构。它由可分离的过滤器组成,其空间轮廓随时间保持相同的形状,但空间轮廓会同时被时间过滤器的值进行缩放。运动能量过滤器通过添加可分离的过滤器来匹配运动特征的结构。对于每个运动方向,都会生成两个时空滤波器:一个是对称的(条状),一个是非对称的(边缘状)这些滤波器的平方和称为运动能量,两个方向的信号差异称为对手能量。然后将该结果除以另一个滤波器的平方输出,该滤波器调整为静态对比度。执行这种划分是为了考虑运动中的对比度的影响。运动能量滤波器可以模拟多种运动现象,但它会产生与相位无关的测量值,该测量值随速度增加但不提供可靠的速度值。
时空梯度
这种运动传感器模型最初是在计算机视觉领域开发的,它是基于图像亮度的时间导数与图像亮度的空间导数之比给出运动速度的原理。 需要注意的是,在图像的波峰和波谷处,该模型将无法计算出有效的答案,因为分母中的导数将为零。 为了解决这个问题,还可以分析关于空间和时间的一阶和高阶空间导数。 时空梯度是一个很好的模型,可以用于确定图像中所有点的运动速度。
运动传感器具有方向选择性
运动传感器的特性之一是方向选择性,它将运动分析限制在单一维度,运动传感器只能记录沿与传感器首选方向正交的轴的一维运动,包含该单一方向特征的视觉刺激,只有在与传感器首选方向的正交方向上的移动(运动在该正交方向上的投影)可以被看到。 一维运动信号只能给出关于二维物体运动的模糊信息,所以运动分析的第二阶段是必要的,以便解析二维物体或图案的真实运动方向。 可以通过将调谐到不同方向的传感器的一维运动信号组合,来产生明确的二维运动信号。 同时,二维运动的分析取决于来自局部宽定向传感器的信号以及来自窄定向传感器的信号。
特征跟踪
我们感知运动的另一种方式是通过特征跟踪。特征跟踪包括分析对象的局部特征是否改变了位置,并从这种变化中推断出运动。在本节中,会提到一些特征跟踪的特性。
当移动刺激发生得非常快时,特征跟踪器就会失败。与运动传感器相比,特征跟踪器的优势在于,即使运动被间歇性空白间隔分开,它们也可以感知对象的运动。他们还可以将这两个阶段(移动和空白间隔)分开。另一方面,运动传感器只会将空白与运动刺激相结合,并看到连续运动。特征跟踪器对已识别特征的位置进行操作,出于这个原因,它们有一个最小距离阈值,该阈值与可以区分特征位置的精度相匹配。特征跟踪器不会显示运动后遗症,即由于视觉适应引起的视觉错觉。当观察到移动刺激后,静止物体似乎在与先前观察到的移动刺激相反的方向上移动时,就会发生运动后效。这种机制不可能同时监测视野不同部分的多种运动。另一方面,多个运动对于运动传感器来说不是问题,因为它们在整个视野中并行运行。
上述信息已被使用并进行了实验,并得出了有关特征跟踪器的有趣结论。简短刺激的实验表明,高对比度下的颜色模式和对比模式不是由特征跟踪器感知的,而是由运动传感器感知的。空白间隔的实验已经证实,在显示中的空白间隔下可以进行特征跟踪。只有在高对比度下,运动传感器才能感知色彩刺激和对比模式的运动。在低对比度下,特征跟踪器能够分析彩色图案和对比度包络的运动,而在高对比度下,运动传感器可以分析对比度包络。受试者进行多次运动判断的实验表明,特征跟踪是一个在有意识控制下发生的过程,它是我们在低对比度显示器中分析对比度包络运动的唯一方法。这些结果与对比度包络和颜色模式的运动取决于特征跟踪的观点一致,除非颜色远高于阈值或平均对比度很高。这些实验的主要结论是,特征跟踪很可能包含对对比度包络和颜色模式的感知。
运动错觉
作为运动检测的结果,一些静态图像在我们看来可能看起来像是在移动。这些图像可以让我们对视觉系统所做的假设(视觉错觉)给以更深的认知。
与一阶运动信号相关的著名运动错觉是 Phi 现象,这是一种使我们感知运动而不是图像序列的视错觉。这种运动错觉使我们能够将电影视为连续体而不是单独的图像。 phi 现象允许一组以恒定速度变化的冻结图像被视为一个恒定的运动。 Phi 现象不应与 Beta 运动混淆,因为前者是由连续的发光脉冲引起的运动,而后者是由发光静止脉冲引起的运动。
当运动感知、运动分析和对这些信号的解释具有误导性时,就会发生运动幻觉,并且我们的视觉系统会产生关于运动的幻觉。这些幻觉可以根据允许它们发生的过程进行分类。错觉被归类为与运动感应、2D 集成和 3D 解释相关的错觉
最流行的关于运动感知的错觉是四冲程运动、RDK 和二阶运动信号错觉。最流行的关于 2D 集成的运动错觉是运动捕捉、格子运动和直接排斥。类似地,与 3D 解释相关的有变换运动、动力学深度、阴影运动、生物运动、立体运动、隐式图形运动和 2 笔画运动。还有更多的运动错觉,它们都展示了一些关于人体运动检测、感知和分析机制的有趣内容。相关的更多信息,请访问以下链接:-{R|http://www.lifesci.sussex.ac.uk/home/George_Mather/Motion/}-
未解决的问题

尽管我们仍然不了解有关运动感知的大部分细节,但了解运动被感知的机制以及运动错觉可以让读者很好地了解该主题的最新进展。关于运动感知的一些开放问题有:在全局运动中形成 3D 图像的机制和孔径问题。
通过整合来自视网膜的全局运动信号,人们可以获得二维的全局运动信号;然而,目前尚不清楚 3D 全局运动是如何形成的。孔径问题的产生是因为视觉系统中的每个感受野只覆盖了视觉世界的一小部分,这导致了感知的模糊性。孔径问题是指当局部观察运动轮廓时,不同的运动带来的观察结果会是一致的。这种模糊性起源于——平行于轮廓的运动是无法被无法检测到的,于是在运动的这一分量上发生的变化,在通过孔径观察到的图像是不会改变的。唯一可以测量的分量是与轮廓方向正交的速度,出于这个原因,物体的运动可以是很多的方向。这个孔径问题不仅在直线轮廓中观察到,而且在平滑弯曲的轮廓中也被观察到,因为平滑曲线在局部观察时可以近似成一条直线。尽管解决孔径问题的机制仍然未知,但关于如何解决它存在一些假设。例如,可以通过组合跨空间的信息,或来自同一对象不同轮廓的信息来解决此问题。
结论
在本章中,我们介绍了运动感知以及视觉系统检测运动的机制。 运动错觉展示了运动信号如何具有误导性,从而导致错误的运动观察。但重要的是要记住,运动感知和运动分析是不同的,同时运动传感器和特征跟踪器相辅相成,使视觉系统感知运动。
运动感知是复杂的,它仍然是一个开放的研究领域。本章描述了关于运动传感器工作方式的模型,以及关于特征跟踪器特征的假设,然而,需要更多的实验来了解这些机制的特征,并能够更准确地构建与视觉系统实际过程相似的模型。
本章描述的各种运动分析和运动感知机制,以及设计用于描述它们的人工模型的复杂性表明,皮层处理来自外部环境的信号的方式非常复杂。数以千计的专门神经元整合并解释局部信号片段,以形成我们大脑中移动物体的全局图像。通过了解我们身体中如此多的参与者和过程必须协同工作才能感知到运动,这使我们的能力显得更加卓越,因为我们人类能够如此轻松地做到这一点。
色彩感知
介绍
人类(以及猴子和大猩猩等灵长类动物)在哺乳动物中拥有最好的颜色感知能力[1]。因此,颜色在许多方面都发挥着重要作用,这并非巧合。例如,颜色可用于区分物体、表面、自然风光,甚至人脸 [2],[3],除了情感,颜色也是一种非语言交流的重要工具 [4]。
几十年来,寻找颜色的物理特性与其感知品质之间的联系一直是一项挑战。通常,这些是通过两种不同的方法进行研究的:由颜色引起的行为反应(也称为心理物理学)和由颜色引起的实际生理反应 [5]。
这里我们只关注后者。对色觉生理基础的研究,在 20 世纪下半叶之前几乎一无所知,自 1950 年以来一直在缓慢而稳定地发展。现在在许多领域取得了重要进展,特别是在受体水平。多亏了分子生物学方法,才有可能揭示有关锥体色素遗传基础的先前未知的细节。此外,越来越多的皮层区域已被证明受到视觉刺激的影响,尽管颜色感知与受体之外的波长依赖性生理活动的相关性并不那么容易辨别 [6]。
在本章中,我们旨在解释沿着视觉路径的不同颜色感知过程的基础知识,从眼睛中的视网膜到大脑中的视觉皮层。(有关传递路径的细节,请参阅第 2 节。本维基教科书的“视觉系统剖析”。)
视网膜上的色彩感知
人类可以辨别的所有颜色都可以通过三种主要(基本)颜色的混合来产生。受这种颜色混合思想的启发,有人提出颜色由三类传感器辅助,每种传感器对可见光谱的不同部分具有最大的灵敏度 [1]。 1853 年首次明确提出正常颜色匹配存在三个自由度[7],这后来在 1886 年得到证实 [8] (结果与最近的研究 [9], [10] 非常接近)。
这些提议的颜色传感器实际上是所谓的视锥(注意:在本章中,我们将只处理视锥。视杆仅在低光照水平下对视觉有贡献。虽然已知它们对颜色感知有影响,但它们的影响很小,这里可以忽略。)[11]。视锥细胞是在视网膜中发现的两种类型的感光细胞中的一种,它们在中央凹中的浓度很高。下表列出了三种类型的视锥细胞。它们的区别在于不同类型的视紫红质色素。它们对应的吸收曲线如下图所示。
| 名称 | 对颜色的敏感度更高 | 吸收曲线峰值 [nm] |
|---|---|---|
| S,SWS,B | 蓝色 | 420 |
| M,MWS,G | 绿色 | 530 |
| L,LWS,R | 红色 | 530 |

尽管对不同锥体类型的命名尚未达成共识,但最广泛使用的名称是指它们的作用光谱峰或它们本身敏感的颜色(红色、绿色、蓝色)[6]。在本文中,我们将使用 S-M-L 名称(短、中和长波),因为这些名称更适合描述。蓝-绿-红命名法有点误导,因为所有类型的锥体都对一定大范围的波长敏感。
三种锥体类型的一个重要特征是它们在视网膜中的相对分布。事实证明,S 锥体在视网膜中呈现出相对较低的浓度,在中央凹的最中央区域完全不存在。实际上,尽管它们能够调节弱边界感知 [12],但它们的间距太大而无法在空间视觉中发挥重要作用。中央凹以 L 和 M 锥体为主,两者的比例通常以比率来衡量。有L/M 比率的不同值被报告出来,范围从 0.67 [13] 到 2 [14]不等,后者数值是被广泛接受的,至于为什么 L 锥体几乎总是多于 M 锥体还不是很清楚。令人惊讶的是,不同的视锥比,对色觉几乎没有显着影响。这清楚地表明大脑是可塑的,可以理解它接收到的任何锥体信号[15], [16]。
同样重要的是要注意 L 和 M 锥吸收光谱的重叠。虽然 S 锥吸收光谱明显和其他两者分开,但 L 和 M 锥峰仅相距约 30 nm,它们的光谱曲线也明显重叠。这导致这两个锥类的光子捕获量具有高度相关性。这是因为为了在中央凹的中心获得尽可能高的敏锐度,视觉系统同等对待 L 和 M 锥,而不考虑它们的吸收光谱。因此,任何种类的差异都会导致亮度信号的恶化 [17]。换句话说,L-和M-锥光谱之间的小分离可能被解释为高对比度色觉和高敏锐亮度视觉需求之间的折衷。这与视敏度最高的中央凹中央缺乏 S 锥体的现象是一致的。此外,L-和M-锥吸收光谱的紧密间隔也可能由它们的遗传起源来解释:两种锥体类型都被认为是“最近”(大约 3500 万年前)从一个共同祖先进化而来的,而 S 锥体可能更早地从祖先受体中分离出来 [11]。
三种不同类型视锥细胞的光谱吸收功能是人类色觉的标志。这个理论解决了一个众所周知的问题:虽然我们可以看到数百万种不同的颜色(人类可以区分 7 到 1000 万种不同的颜色[5]),但我们的视网膜根本没有足够的空间,在每个视网膜区域里,容纳每个颜色的单独检测器。
从视网膜到大脑
从视网膜传输到更高层次的信号不是受体信号的简单逐点表示,而是由受体信号的复杂组合组成。本节的目的是简要介绍其中一些信息所采用的路径。
一旦视网膜上的光学图像在光感受器中转换为化学和电信号,调幅信号就会在神经节细胞和更高级别转换为调频形式。在这些神经细胞中,信号的大小用细胞每秒发射的电压脉冲数表示,而不是细胞膜上的电压差。为了解释和表示这些细胞的生理特性,我们会发现感受野的概念非常有用。
感受野是给定细胞响应的视野区域的图形表示。此外,响应的性质通常针对感受野中的各个区域进行指示。例如,我们可以将光感受器的感受野视为一个小圆形区域,代表该特定感受器在视野中的敏感度的大小和位置。下图显示了神经节细胞的示例性感受野,通常处于中心-环绕拮抗状态。图中左侧的感受野说明了正极的中央反应(称为开型ON中心)。这种响应通常是由单个锥体的正输入产生的,周围是几个相邻锥体产生的负响应。因此,该神经节细胞的反应将由来自具有正负号的各种锥体的输入组成。通过这种方式,细胞不仅对光点做出响应,而且还充当边缘(或更准确地说,点)检测器。与计算机视觉术语类似,我们可以将神经节细胞响应视为与边缘检测器内核卷积的输出。图中右侧的感受野说明了负中心反应(称为关型OFF中心),这同样可能。通常,开型中心和关型中心的细胞将出现在相同的空间位置,由相同的光感受器馈送,从而导致动态范围增强。
下图显示除了空间拮抗作用外,神经节细胞也可以有光谱对抗作用。例如,下图的左侧部分说明了红绿色对手的反应,中心由 L 锥体的正输入馈送,周围由 M 锥体的负输入馈送。另一方面,下图的右侧部分说明了该单元的关型中心版本。因此,在视觉信息甚至离开视网膜之前,处理就已经发生,对颜色外观产生深远的影响。还有其他类型和种类的神经节细胞反应,但它们都共享这些基本概念。
在到达初级视觉皮层的途中,神经节细胞轴突聚集形成视神经,视神经投射到丘脑的外侧膝状核 (LGN)。视神经中的编码效率很高,将神经纤维的数量保持在最低限度(受视神经大小的限制),从而使视网膜盲点的大小尽可能小(大约 5° 宽 x 7°高的)。此外,呈现的神经节细胞对均匀照明没有反应,因为正区域和负区域是平衡的。换句话说,传输的信号是不相关的。例如,来自自然场景相邻部分的信息在空间上高度相关,因此高度可预测[18]。相邻视网膜神经节细胞之间的横向抑制最大限度地减少了这种空间相关性,从而提高了效率。我们可以将其视为在视网膜中进行的图像压缩过程。
鉴于 L 和 M 锥吸收光谱的重叠,它们的信号也高度相关。在这种情况下,通过组合锥形信号以最小化所述相关性来提高编码效率。我们可以使用主成分分析 (PCA) 更轻松地理解这一点。 PCA 是一种统计方法,用于通过将原始变量转换为一组新变量,即主成分 (PC) 来降低给定变量集的维数。第一个 PC 解释了原始变量中最大的总方差,第二个 PC 解释了第一个组件未解释的最大方差,依此类推。此外,PC 在参数空间中是线性独立且相互正交的。 PCA 的主要优势在于,只需要少数最强的 PC 就足以覆盖绝大多数系统可变性 [19]。该方案已用于锥形吸收函数 [20] 甚至自然发生的光谱 [21],[22]。在自然物体产生的锥体激发空间中发现的 PC 是
- L-和 M-锥体信号相加的亮度轴 (L+M),
- L-和 M-锥体的差异信号 (LM),
- 色轴,其中 S 锥信号与 L 和 M 锥信号的总和不同 (S-(L+M))。
这些通道源自数学/计算方法,与电生理实验中发现的三个视网膜膝状体通道一致 [23],[24]。使用这些机制,可以消除视网膜中的视觉冗余信息。
有三个信息通道实际上将这些信息从视网膜通过神经节细胞传递到 LGN,它们不仅在颜色特性上不同,而且在解剖基底上也不同。这些通道对基本颜色任务(例如检测和辨别)构成了重要限制。
在第一个通道中,L-和 M-锥体的输出协同传输到扩散双极细胞,然后到 LGN 的大细胞层 (M-) 中的细胞(不要与视网膜的 M-锥体混淆) [24]。 M 细胞的感受野由中心和周围组成,它们在空间上是对立的。 M-cells 对亮度刺激具有高对比度敏感性,但它们在 L-M 对手输入的某些组合下没有反应[25]。但是,由于不同 M 细胞的零点略有不同,因此种群响应永远不会真正为零。这种特性实际上被传递到具有主要 M 细胞输入的皮层区域 [26]。
细小细胞通路 (P-) 起源于从 L 或 M 锥到小型双极细胞的单个输出。这些为视网膜 P 细胞提供输入[11]。在中央凹中,P 细胞的感受野中心由单个 L 或 M 锥体形成。 P 细胞感受野环绕的结构仍然存在争议。然而,最被接受的理论指出,环绕由特定的锥体类型组成,导致亮度刺激的空间对立感受野[27]。细小细胞层约占从视网膜到 LGN 的总投影的 80%[28]。
最后,最近发现的角膜细胞途径 (K-) 主要携带来自 S-cones 的信号[29]。这种类型的锥体组投射到特殊的双极细胞,后者又为特定的小神经节细胞提供输入,这些通常不是空间对立的存在。而后小神经节细胞的轴突投射到 LGN 的薄层(与细小细胞层相邻)[30]。
虽然神经节细胞确实终止于 LGN(与 LGN 细胞形成突触),但神经节细胞和 LGN 细胞之间似乎是一一对应的。 LGN 似乎充当信号的中继站。然而,它可能提供一些视觉功能,因为从皮层到 LGN 的神经投射可以作为某种类型的转换或适应反馈机制。 LGN 细胞的轴突投射到枕叶视觉皮层中的视觉区域 1 (V1)。
大脑的颜色感知

在皮层中,来自大、小和角膜细胞通路的投射终止于初级视觉皮层的不同层。大细胞纤维主要支配第 4Cα 层和第 6 层。细小细胞神经元主要投射到 4Cβ 和第 4A 层和第 6 层。角质细胞神经元终止于第 1、2 和 3 层中富含细胞色素氧化酶 (CO-) 的斑点[31]。
一旦进入视觉皮层,视觉信息的编码就会变得更加复杂。以同样的方式,各种光感受器的输出被组合和比较以产生神经节细胞反应,各种 LGN 细胞的输出被比较和组合以产生皮层反应。随着信号在皮层处理链中进一步向前推进,这个过程会不断重复,其复杂程度迅速增加,以至于感受野开始失去意义。然而,一些功能和过程已经在视觉皮层的特定区域被识别和被研究了。
在 V1 区域(纹状皮层)中,双重对立神经元——它们的感受野在颜色和空间上都相对于单个感受野的开/关区域相反的神经元——会比较视觉空间中的颜色信号[32]。它们占 V1 中细胞的 5% 到 10%,它们的粗大尺寸和小百分比与色觉的较差空间分辨率相符合 [1]。此外,它们对运动刺激的方向不敏感(与其他一些 V1 神经元不同),因此不太可能有助于运动感知[33]。然而,鉴于它们专门的感受野结构,这些细胞是颜色对比效应的神经基础,也是颜色编码的有效手段[34],[35]。其他 V1 细胞对其他类型的刺激做出反应,例如定向边缘、各种空间和时间频率、特定空间位置以及这些特征的组合等。此外,我们可以找到线性组合来自 LGN 单元的输入信号的单元以及执行非线性组合的单元。通过这些响应来支持高级视觉功能,例如颜色本身。
与 V1 相比,V2 中单个神经元的色彩特性的信息要少得多。乍一看,V1 和 V2 中的颜色编码似乎没有重大差异[36]。一个例外是出现了一类新的颜色复杂细胞[37]。因此,有人建议 V2 区域参与色调的形成。但是,这仍然存在很大争议,尚未得到证实。
遵循在 V1 中发现功能性眼优势后开发的模块化概念,并考虑到 P-、M-和 K-通路之间的解剖隔离(在第 3 节中描述),有人建议在视觉中建立一个专门的系统专门用于分析颜色信息的皮质应该存在[38]。 V4 是历史上最受关注的区域,因为它可能是大脑的“颜色区域”。这是因为一项有影响力的研究声称 V4 包含 100% 的色调选择性细胞 [39]。然而,这一说法受到了许多后续研究的质疑,有些甚至报告说只有 16% 的 V4 神经元显示色调调整[40]。目前,最被接受的概念是 V4 不仅有助于颜色,还有助于形状感知、视觉注意力和立体视觉。此外,最近的研究集中在试图找到大脑的“颜色区域”的其他大脑区域,例如 TEO[41] 和 PITd[42]。这些地区之间的关系仍然存在争议。为了协调讨论,一些人使用术语后下颞 (PIT) 皮层来表示包括 V4、TEO 和 PITd 的区域[1]。
如果 V1、V2 和 V4 细胞中的皮层反应已经是一项非常复杂的任务,那么在大约 30 个视觉区域的网络中,复杂视觉反应的复杂程度是巨大的。下图显示了已识别的不同皮质区域(不是细胞)的一小部分连通性 [43].。
在这个阶段,用简单的术语解释单个皮层细胞的功能变得非常困难。事实上,单个细胞的功能可能没有意义,因为各种感知的表示必须分布在整个皮层的细胞集合中。
色觉适应机制
尽管研究人员一直试图解释人类视觉系统中颜色信号的处理过程,但重要的是要了解颜色感知不是一个固定的过程。 实际上,有多种动态机制可用于根据观看环境优化视觉响应。 与颜色感知特别相关的是暗、光和色适应的机制。
暗适应

暗适应是指当光照水平降低时发生的视觉灵敏度变化。视觉系统对减少照明的反应会变得更加敏感,即使在光线条件不理想的情况下,也会提升其产生有意义的视觉反应的能力[44]。
上图显示了从极高照度水平过渡到完全黑暗后视觉灵敏度的恢复[43]。首先,锥体逐渐变得更加敏感,直到几分钟后曲线趋于平稳。经过大约 10 分钟后,视觉灵敏度大致恒定。此时,具有较长恢复时间的杆系统已恢复足够的灵敏度以胜过锥体,因此恢复控制整体灵敏度。视杆灵敏度也逐渐提高,直到大约 30 分钟后变得渐近。换句话说,视锥细胞负责前 10 分钟的灵敏度恢复。之后,杆的表现优于锥体并在大约 30 分钟后获得完全灵敏度控制。
这只是为了尽可能适应黑暗闪电条件而产生的几种神经机制之一。其他一些神经机制包括众所周知的瞳孔反射、光色素的消耗和再生、对视网膜细胞的控制和其他高级机制以及认知解释等。
光适应

光适应本质上是暗适应的逆过程。事实上,这两个过程的潜在生理机制是相同的。但是,由于其视觉属性不同,因此单独考虑它很重要。
当照明水平增加时发生光适应。因此,鉴于有明显更多的可见光可用,视觉系统必须变得不那么敏感才能产生有用的感知。视觉系统具有有限的输出动态范围,可用于产生我们感知的信号。然而,现实世界的照度水平至少要高出 10 个数量级。幸运的是,我们很少需要同时查看整个照明水平范围。
在高光水平下,适应是通过光色素漂白实现的。这可以缩放受体中的光子捕获,并保护锥体响应免于在明亮的背景下饱和。光适应的机制主要发生在视网膜内[45]。事实上,增益变化在很大程度上是视锥细胞特定的,适应池信号覆盖不大于单个视锥细胞直径的区域[46],[47]。这表明光适应的定位可能早于受体。然而,似乎有不止一个敏感度缩放位点。一些增益变化非常迅速,而另一些则需要几秒钟甚至几分钟才能稳定[48]。通常,光适应大约需要 5 分钟(比暗适应快 6 倍),这可能表明接受后位点的影响。
上图显示了光适应的示例 [43]。如果我们使用单个响应函数将大范围的强度映射到视觉系统的输出中,那么对于给定的场景,我们只能使用非常小的范围。很明显,使用这样的响应函数,任何给定场景的感知对比度都会受到限制,并且由于信噪比问题,视觉对于变化的敏感性将严重下降,这种情况用虚线表示。另一方面,实线代表视觉反应系列。这些曲线将任何给定场景中的有用照明范围映射到视觉输出的完整动态范围,从而为每种情况产生最佳的视觉感知。光适应可以被认为是沿着照明水平轴滑动视觉响应曲线的过程,直到达到给定观看条件的最佳水平。
色彩适应
色适应的一般概念在于三个锥体光谱响应曲线的高度变化。这种调整的产生是因为光适应在每一类锥体内独立发生。这种假设的具体表述被称为“冯·克里斯适应”。该假设指出,适应响应分别发生在三种锥体类型中的每一种中,相当于将它们的固定光谱灵敏度乘以缩放常数[49]。如果缩放权重(也称为冯·克里斯系数)与每种锥体类型的光吸收成反比(即较低的吸收将需要较大的系数),则冯·克里斯缩放在每个锥体类中保持恒定的平均响应。这提供了一种简单而强大的机制,用于在照明发生变化的情况下保持物体的感知颜色。在许多不同的条件下,冯·克里斯缩放很好地说明了光适应对颜色敏感性和外观的影响[50],[51]。
描绘色彩适应的最简单方法是在不同类型的照明下检查白色物体。例如,让我们考虑在日光、荧光灯和白炽灯照明下检查一张纸。日光比荧光灯包含相对多得多的短波能量,而白炽灯所包含的长波能量比荧光灯多得多。然而,尽管光照条件不同,纸张在所有三种光源下大致保持其白色外观。这是因为 S 锥系统在日光下变得相对不那么敏感(为了补偿额外的短波能量),而 L 锥系统在白炽灯照明下变得相对不那么敏感(为了补偿额外的长波能量)[43]。
- ↑ 1.0 1.1 1.2 1.3 Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ 5.0 5.1 Template:Cite book
- ↑ 6.0 6.1 Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ 11.0 11.1 11.2 Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite book
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ 24.0 24.1 Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite book
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ 43.0 43.1 43.2 43.3 Template:Cite book
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite journal
- ↑ Template:Cite book
- ↑ Template:Cite book
- ↑ Template:Cite journal
- ↑ Template:Cite journal




