Neuron脑影像机器学习：表征、模式信息与大脑特征：从神经元到神经影像

人们对于神经影像的研究已不满足于对大脑局部的研究，开始探索汇集了更多分散于多个脑系统的脑活动预测模型。这里我们回顾多变量预测模型如何对定量可重复的预测结果进行优化，构建了比传统模型具有更大影像的身心交互模型并对大脑表达构筑于思维模式的方法进行了解释，尽管在实现前两个目标方面取得了越来越大的进展，但是模型仅仅开始处理后一个目标。通过明确地识别知识的缺口，研究项目可以有意地、程序化地朝着识别潜在心理状态和过程的大脑表征的目标前进。本文由美国科罗拉多大学学者发表在Neuron杂志。

导语：

近些年来，脑影像的研究已经进行到了由脑功能映射（brain mapping）到开发关于心理活动的集成的多变量脑预测模型（multivariate brain models）的研究当中。传统的脑图谱研究方法孤立地对局部的脑区以及部分体素地时间序列来构建大脑与思维的联系。局部脑区响应被视为由统计模型解释的结果，并将局部区域的效应聚合成脑区。大脑模型颠覆了人们对感知经历、思维活动以及行为活动结果的解释方式。这类模型说明了结合大脑生理测量来预测心理过程的特征或强度的方法（图1）。例如：通过模型可对被试观测的对象进行预测或解码，或预测被试的下一步活动，以及被试在刺激之下的疼痛强度。因此，脑图谱和脑模型的有着截然不同的研究目的，脑图谱描述了局部的信息编码，而脑模型尝试对神经系统的各部分及其联合活动对思维和行为进行预测。

有些简单模型将单个的脑区活动和激励结合起来分析。但是，有越来越多的多变量模型发展起来了：它们将结果解释为大脑活动和/或结构的模式，这些模式跨越了大量的大脑特征，它的分布通常横跨在多个解剖区域和系统，甚至横跨测量的类型，如fMRI功能激活，脑功能连接结构以及脑化学等。基于多变量的分析模型现在已经应用到对象认知、语言活动、睡眠障碍、自主反应、记忆、决策、语义概念分析，认知任务、注意分析、疼痛、诗歌韵律研究、情绪、同情以及对做梦的研究。除了上述研究外，多变量分析模型也被应用在神经心理失调等研究当中。

在本文中，我们讨论了使多变量大脑模型成为一种信息丰富和功能强大的方法的理论基础，并提供了该领域中不断扩展的建模工具和方法的简要历史。我们还探究了一种特定类型模型的前景和挑战，即大脑“特征”或“神经标记”，它可以识别出预测个体心理和行为结果的大脑模式。在前后文所列出的研究领域中，这类基于大脑多变量模式的研究成果和预测结果往往能带来一些好处，例如：

1、可以更好的还原心理活动与行为信息在神经元层面的编码关系；

2、可以比基于脑区作用的传统研究提供更大尺度的全脑协作的模式的分析；

3、提供了可被经验证伪的结果的定量预测；

4、基于特定的研究方向，可使用确定了测量参数的模型在相应的的研究中进行测试与验证（为后续研究提供了模板）；

5、并提供了验证心理构造与理解大脑参与心理活动的方式，因为心理学上与神经学上的差异往往存在一致性。

最终我们将讨论围绕在心理结构及其验证方面的不同问题，以及预测性大脑模型如何帮助我们重新定义我们理解以及对大脑进行分类的方式。由脑图谱到神经统计模型的发展为经验及理论的发展提供了坚实的基础。但是也引出了研究者如何定义和评估精神构成，以及对于识别那些突出的大脑表达的意义的重要问题。不过随着多变量脑模型科学的发展，这些问题也终将被克服。科学家们已经开始从事一项艰巨的工作:迭代地识别潜在的心理结构，为它们开发神经测量模型，并基于经验数据验证、精炼和重新定义这些结构。对这一过程进行明确的形式化描述，可以发现当前研究中的空白，并加速实现认知神经科学和相关领域的一个基本目标：建立思维和大脑之间的映射。

图1.脑图谱与脑模型的的比较：图A简要列举了基于脑图谱的分析模型与基于脑模型的分析方法的构建过程；图B呈现基于脑图谱的研究方法在比较了人在识别面孔以及形状、奖惩情绪和高压与放松情况下的大脑激活情况，图c显示了使用基于大脑模型的深部核团预测，基础疾病预测以及痛感预测的结果图。

关于神经表征的理论假设

神经影像学中的大脑映射是从一种思维习惯中产生的，我们习惯认为心理过程是模块化的，并在孤立的局部脑区实现。这一观点建立在心理哲学的长期假设基础上，研究表明，大脑皮层不同区域的损伤会导致言语产生、语言理解、感知和行动的缺陷。这项工作支持这样一种观点，即大脑可以被看作是一个功能模块的集合——独立的、可分离的处理单元，它们访问彼此的输入和输出而非中间过程。虽然这一基本假设在理论上受到了挑战，但在早期的神经影像学研究中被采纳，并且通过独立分析每个脑体素来分析脑-心的关联性变得流行起来。

相比之下，多变量预测模型是从基于神经群体编码和分布表示的理论中产生的。神经生理学的研究已经证实，关于精神和行为的信息是在混合的神经元群的活动中编码的。许多研究识别了单个神经元中编码的信息，但通常，即使是最能预测刺激或任务的单个神经元的活动也包含的信息太少，无法准确预测行为。一篇关于群体编码的文献表明，通过跨细胞群体的联合活动，包括运动控制、面部感知和识别、物体识别、眼动控制、气味感知、数量等，通常可以更准确地预测行为。

群体编码研究表明，大多数细胞对单一刺激或动作类别（如物体类型或眼跳方向）的选择性不强，而是对类别的复杂组合作出反应。非首选类别的触发率是稳定的和可重复的，并且在预测（即“解码”）模型中包含它们比仅包含强类别选择神经元的模型具有更强的分类性能。此外，在从预测模型中去除强响应神经元后，它们提供了很强的分类性能。对一个类别（例如，一个扫视方向）有强烈反应的神经元的失活并不能消除这一类别的反应，而是导致与群体编码一致的可预测的行为变化。除细胞群平均活性的变化外，神经元间的共变异也很重要。这些发现表明，在信息编码方面，整体往往大于部分之和。

群体代码具有多种适应性优势，可能推动了它们的发展，包括鲁棒性，噪声过滤以及对可以灵活使用的高维非线性表示进行编码的能力。分布式表征允许组合编码，提供了用有限的神经“财产”来表征大量信息的能力。神经元是可以组合到几乎无限数量的系统状态中的元素，从而成倍地增加了网络的编码能力。这样的生成系统无处不在。例如，26个拉丁字母是英语中所有单词的基础。相比之下，《中华人民共和国字海词典》收录了8.5万多个词条，每一个词条代表一个词或一个概念。

这些优势激发了利用这些原理的人工神经网络。这些模型中的神经元以高度分布的“多对多”方式编码输入对象的特征（例如图像，文本等）。每个神经元表示许多对象特征，并且对象特征的表征分布在许多神经元上，从而提供了一种表征对象之间相似性和关联性的丰富方式。深度网络层中的神经元编码复杂的功能组合，事实证明，相对于其他模型而言，这对于提高深度学习模型的预测准确性至关重要。这样的模型也可以用于解码和创建前所未有的对象。

在人类神经影像学中，跨多个脑体素的活动如何共同编码行为结果的多变量建模是细胞神经科学中群体编码概念的延伸。由于人类神经成像提供了一种比单个神经元更符合局部视野电位和在体钙成像的神经活动的间接测量方法，因此任何单个体素中的活动都不被视为任何特定计算或过程的指示，而是作为分布式表征的一部分在认知过程中进行动态转换，完成不同的功能任务。多变量方法并不像传统的单变量方法那样试图定位独立的功能模块，而是描述了活动的分布模式与心理事件和行为类别之间的关系。

多变量脑模型简史多体素模式分析进展

多变量脑模型是一个多样的模型家族，涵盖多个目标和分析方法。它的一个主要目标是准确预测结果（即，最大限度地解释由模型解释的方差），这对于将来的预测（预后）是有用的。但也有其他互补的目标。模型可以设计为：

（1）概括到新的人群、精神状态或行为，或测试环境；

（2）区分一类心理事件或行为；

（3）在其他神经科学数据的背景下或多或少容易得到解释，并针对其他发现进行验证。准确的、可概括的和可解释的模型提供的不仅仅是预测。它们为心理事件的神经基础提供解释。模型对大脑中心理事件的表现方式也有不同的假设，不同的目标和假设表明了不同的研究设计和分析方法。

在过去的二十年里，随着对大脑如何表示心理事件的假设发生了变化，一些原本被认为无法实现的目标现在看来是可能的，所采用的模型类型的变化已经显著增加。图2A显示了一些最重要的发展的时间表，以及关于模型目标和结构的相应选择。我们将这些进展分为多个阶段，每个阶段都向神经科学家的工具箱中添加一组技术。

图2多变量脑模型的优势：图a显示从往上显示了脑影像分析由个人逐步向更加具有普适性的模型发展的进程，由左往右显示了随着时间的推移，这个神经影像领域的发展进程；图b显示了包含在脑活动里多变量大脑模型的决策类型。

个人内部的局部信息编码。

早期的研究基于这样的假设：信息主要在局部大脑区域编码，在功能神经元列的活动中聚集，并具有良好的空间尺度，并且其精确的地形图因人而异。因此，建模工作着重于预测空间局部区域内个体内的心理状态。其目的并不是开发一个有用的感知或行为的整体模型，而是（如在传统的大脑映射中一样）理解局部的大脑表示。

利用这种方法，几篇开创性的论文表明，早期视觉皮层的大脑活动可以用来预测一个人所看到的线条光栅的方向；其他的研究表明，用这种方法识别的活动模式可以用作工作记忆的探针。例如，在没有视觉刺激的情况下，识别感知线条光栅方向的模型可以用来推断工作记忆的内容。这些研究和其他领域的开创性工作有助于在感兴趣的局部区域内建立预测分析，以此了解心理事件的局部表征。一个名叫searchlight mapping的拓展方法，涉及在大脑中的局部球形“searchlights”中进行多变量预测，以构建关于心理/行为结果的信息编码位置的大脑地图，这已成为绘制局部大脑信息内容的流行技术。如果您对searchlight及机器学习数据处理方法感兴趣，可点击下文思影科技课程：

第二十四届磁共振脑影像基础班（重庆）

第十届脑影像机器学习班（南京）

尽管这些研究表明了一种开创性的新方法，但它们在某些重要方面受到限制。首先，研究表明局部fMRI模型预测高于偶然性的结果本身并不允许使用该模型作为“标记”，或大脑表征的代表。使用大脑模型来推断心理事件的存在或强度需要假设（或理想地证明）：

（1）假定的大脑标记与心理事件有因果关系，而不是混淆的过程；

（2）大脑标志物能够很好地捕捉心理事件的大脑表征，并以高灵敏度检测它；

（3）大脑标志物专门针对感兴趣的心理事件。脑标志物对心理事件有很高的阳性预测价值，脑标志物的激活意味着心理事件是在且仅在满足后两个标准的情况下发生的。这些标准在单被试、局部解码模型中尤其难以满足。另一个限制是，由于单对象解码为每个被试标识了不同的模型（例如，基于观察到的fMRI激活的不同的参数估计模式），因此在捕获伪影和与过程无关的混淆过程中具有很大的灵活性。潜在的混淆（例如，学习、习惯化和疲劳等时变影响）通常不在局部解码研究中建模，避免系统性偏见需要专门的实验设计（例如，在人内平衡和混淆分层），这在许多情况下可能是不实际的。在新的研究中，个体化的模型也不能被用于精确性、概括性或易混淆性的测试，除非将相同的个体带回重新测试。也就是说，有可能复制行为前活动可以预测未来选择的结论，但无法测试用于每个人的精确模型是否表示预期的行为，或者表示与意愿的行为无关的另一个相关过程。

最后，局部预测很大程度上依赖于信息主要包含在精细的局部模式中的假设。如果不是这样的话，那么如果仅局限于大脑的局部区域，预测模型的表现将会很差。而且解码精度越低，越有可能是大脑测量的噪音太大而不能代表测量，目标大脑区域可能在表征心理过程中只起到很小的作用，或者大脑和心理/行为结果之间的关联是人为的。不幸的是，在许多已发表的文献中，很难知道局部searchlight模型有多精确，因为如果从多个测试区域中选择重要区域，则searchlight mapping中的事后效应大小会有乐观偏差。

因此，开发大脑测量指标作为感知、工作记忆、疼痛等心理结构的指标是一个重要目标，但它需要难以在单个研究中建立的推论，更不用说单个被试了。正如本文下面所描述的，该领域的一些发展解决了这些限制的不同方面。

· 从局部解码到全脑解码。

其他的研究不是集中在单个区域，而是从假设信息是在分布式大脑系统中编码开始的，描述复杂行为可能需要模型来捕捉这些系统中的活动模式。这一假设导致了基于横跨大脑的多个体素（目前高达数十万）的活动和/或连接的联合模式进行预测的模型。

这种方法发展较慢，部分原因是当模型参数（如体素）比观测值多时，可能会出现过拟合，产生的模型不能很好地泛化（有关神经成像背景下的更多解释，见Pereira等人，2009）。然而，正则化或减少具有大量特征的预测模型的复杂性的机器学习技术有助于克服这一挑战并使全脑模型可行。研究发现，使用全脑模式来解码记忆和语义信息的内容，并区分认知任务类型。最近的研究表明，包含奖惩、工作记忆、语义、疼痛、持续注意力和其他功能信息的信号并不局限于单个大脑区域或系统，而是广泛分布于各个大脑区域。一个新的方向是直接比较在不同空间尺度下运行的模型，从而可以推断出心理/行为信息编码的位置和范围。早期的模型比较研究表明，关于至少某些类别的心理事件的信息确实分布在不同的区域和系统中。扩大模型的空间尺度本身并不能解决单被试模型固有的局限性，包括:

（1）易受混淆因素影响（尤其是对目标精神状态不明确的弥漫性神经调节作用）;

（2）模型参数的可解释性差（即，体素内和体素间的模式）;

（3）无法在被试、情境和心理事件类型之间测试已训练模型的可概括性和特异性。

此外，尽管有正则化和相关的建模技术，这些参数的估计通常比标准的单变量映射噪声更大，其解释也更复杂。例如，模型中重要的大脑签名可以捕捉和控制数据中的噪声源，而不是与心理事件直接相关。

当使用非线性映射（如常用的径向基函数支持向量机和深层神经网络实现的映射）从大脑活动预测心理状态时，模型参数的可解释性特别复杂。这些方法在参数（通常是大脑签名）和复杂的非单调的结果之间建立映射。这个问题的一个典型例子是从视网膜活动中解码物体身份。一个复杂的非线性模型可以利用视网膜活动来预测被观察对象的语义类别，即使视网膜中的单个神经元没有基于语义的响应。类别的表示是在模型中编码的，而不是直接在视网膜细胞的活动中。在这种情况下，线性模型将无法预测语义类别这一优势，因为它只依赖于以线性方式编码在系统中的信息。尽管非线性模型面临这一挑战，但利用深度网络对腹侧视路进行模型处理的开创性研究显示，它与生物学数据有着惊人的一致性。更通俗来说，与解释性相关的问题可以通过评估它们与单变量编码权重的关系和评估模型权重在个体间的再现性来部分解决。

· 从模拟个体到群体。

考虑到上述局限性，研究人员越来越关注于识别在个体间普遍存在的模型。在一组受试者中预测结果的模型被限制为在个体之间具有相同的模型参数和估计，从而减少了特殊的工件并增加了可解释性。此外，模型性能可以在样本之外的个人身上进行测试，从而得到个人级性能的估计值，就像在医学中使用的诊断测试一样。

这种方法假设大脑活动模式中包含有用的信息，这些信息在个体的中尺度和系统级活动中是一致的。尽管最初的假设与此相反，跨学科解码在许多不同领域被证明是有效的，包括识别注意状态、检测感知对象的语义类别、诊断痴呆、抑郁、慢性疼痛和其他临床结果。这些研究通过建立在被试之间推广的总体人群模型，塑造了预测模型的格局。

一个潜在的缺点是，群体水平模型并不总是像个体模型那样具有预测性。一个重要的限制是结构和功能解剖学的被试间可变性，这降低了被试间的泛化能力。统计理论表明，人际（between-person）相对于人内（within-person）预测的相对成本取决于人际差异（个体差异）与人际差异（个体测量误差）之比。更大的个体差异和每人可收集大量数据的能力将优势转移到了人内模型上。然而，由于可以在一个人身上收集的数据量通常是有限的，例如在标准的简短“定位”任务中，在某些情况下，人模型之间的性能几乎与人模型内部的性能相同，或者实际上更准确。一些新的模型，包括高度对齐和其他方法，使被试之间的功能（而不是解剖学）区域对齐，可以显著减少功能解剖学的被试间变异，提高群体水平模型的准确性和特异性。

其他几个重要的限制仍然存在，包括可解释性的限制，潜在的混淆以及有关给定模型是否可以推广到不同语境（context（可理解为背景，下同））的问题（即，在看似不同的环境中预测相关结果）。然而，这些限制可以通过考虑选择训练和测试数据以及模型结构来部分克服，如下所述。

· 跨语境的概括。

所有类型预测模型的一个主要挑战是确保它们反映了特定的目标心理过程（如疼痛、注意力等）。在某些情况下，该模型可以追踪相关的表面变量，而在其他情况下，它可能只追踪一个背景下的心理过程。例如当个体观看愤怒和恐惧面孔时，脑分类器是否基于“愤怒”和“恐惧”的广义概念理解来预测，而不是个体观看时候的面孔和眼动模式的一些特殊层面？多变量建模的一个重要方向是明确地训练对实验环境变化具有鲁棒性的模型，例如愤怒与中性图片、声音、记忆等。系统地概括实验环境使模型更可能反映目标心理类别，而不是相关的感觉运动和认知过程。

最近的几项研究发展了一种模型，这种模型概括了一个心理过程中看似不同的范例。为情感类别（恐惧、愤怒等）建模的工作已经训练了群体级别的模型，以概括音乐和电影片段、短片和心理意象以及各种引导情绪方法。其他的研究已经预测了情绪和情感效价，其方法概括了视觉和味觉刺激；面部、声音和身体暗示；以及对语境的直接感知和因果推断。

与其他方法一样，这也有局限性。不同的操作在诱发目标心理状态方面的有效性不一；例如，视频剪辑通常比心理想象或自传体回忆更能激发情绪，某些类型的经验可能更难用某些类型的刺激进行操作。这引入了类别和强度之间的混淆，这可以归因于 （1）从强度上不同类别的近似匹配刺激和（2）在模型训练期间对强度的控制。同样的原则也适用于其他潜在的混淆因素，虽然先前的工作在某些情况下已经考虑到了它们，但是未来的建模工作应该仔细考虑它们。此外，在一项研究中操纵多个变量往往是不可行的。将语境变化与群体级建模相结合，可以帮助整合多个研究中的数据，使组合数据集中的上下文异质性更强。最后，假设一些心理结构随着语境的变化而变化。例如，“愤怒”和“恐惧”与不同的行为倾向有着内在的联系，可能无法将情绪与这些倾向分开。

大脑签名（brain signature）：心-脑关联的强力推断

尽管多变量大脑模型输入了很多变量，但一个共同的目标是预测心理事件，从而了解其背后的大脑表征。这可以包括：

（1）检测是否已经进行了心理过程；

（2）推断参与的强度（strength）或强度（intensity）；

（3）推断哪些心理类别在其大脑表示上相似或不同；

（4）推断心理状态如何变化。情境或治疗方法会影响心理过程的参与及其大脑的表征等等。

我们认为，一类特殊的模型脑信号在这方面特别有用。这类模型使用分布在大脑系统内部和整个系统中的信息，在受试者对一个心理过程的参与强度的预测之间（理想情况下是跨环境的），使其与其他类型的心理事件区分开来。这些签名是有效的大脑生物标志物，或神经标志物。在我们的用法中，“签名”和“生物标志物”这两个词基本上是可以互换的。大脑签名并不像手写签名对人来说是独一无二的那样，被认为是特定心理过程所独有的。它的敏感性、特异性、概括性和其他测量特性都是经验性的。同样，医学中的生物标志物可能或多或少是准确的，或多或少是特定于某一特定疾病的，等等。具有理想特性的签名应该更广泛地进行和测试，而那些测量特性差的签名应该被丢弃或重新定义。通过扩展，仅仅因为模型开发针对的是一种类型的心理事件，我们不应该假设目标事件类是对签名度量的最佳描述。例如，训练用来追踪疼痛的“疼痛信号”可以衡量注意力的投入或负面影响。测试其他心理描述也是一个经验过程，我们称之为“结构识别”的核心。

此外，签名可能不是对心理过程的完整描述。它可能是有用的指标，而不需要捕捉相关的大脑过程，就像疾病生物标记不需要捕捉疾病生理学的所有方面一样。因此，对于同一类心理事件，有足够的空间进行多重认证。

在构建脑信号分布信息和群体水平模型时所涉及的特定建模选择允许这些不同类型的经验发展和验证在研究和实验室中进行，显著提高了（1）通过作出强有力的预测来伪造模型的能力，（2）开发模型理想的测量特性，（3）在研究中建立可重复性，（4）使用预先定义的模型作为干预的目标，和（5）识别由脑信号测量的心理结构，并开发新的心理本体论。

伪造模型（Falsifying Models）

把大脑签名看作是一种测量方法，突出了它们的一个主要优点：它们提供了可以检验和伪造的具体、定量的预测。这使得一个模型制定和严格测试的周期成为跨领域科学进步的关键。在物理学中，它导致了强大的、理论驱动的预测，这些预测仅仅在许多年后才经过经验检验，就像爱因斯坦基于广义相对论的预测，即当恒星到达地球时，它应该围绕太阳弯曲。多年后，埃丁顿对这一预测进行了检验，验证了该理论的预测效用。

例如，当强烈认为疼痛存在时，“疼痛签名”应该做出反应，但不是其他的。如果它对疼痛没有反应，并且可以排除方法上的错误，那么可以排除特征反映所有类型疼痛的假设，为新的改进铺平道路。或者，这个特征可能只反映了某些类型的疼痛或来自某些来源的疼痛，从而导致新的假设，即大脑包括多个不同的过程，可以标记为疼痛。如果签名对明显不痛苦的事件做出反应，比如厌恶的图像、苦涩的味道或呼吸困难，那么签名可以被伪造为疼痛的唯一特征，并且对它所衡量的东西的理解可以被提炼。

聚焦于测量属性

因为大脑映射和多变量searchlight方法的大部分焦点都集中在解释局部大脑表征上，相对较少关注由信号检测理论定义的脑信号的测量特性，例如它们的灵敏度、特异性、阳性行为的预测值和可概括性。大脑信号的第二个优点是它们具有可定义的测量特性，使得模型可以在随后的研究中进行经验测试。

此外，多变量模式与基础神经表示之间的更紧密匹配自然会带来更好的测量性能。这一点得到了超敏锐性研究的支持，超敏锐性的观察表明多变量模型对以比神经成像数据采集的分辨率更精细的空间分辨率编码的信息敏感。多尺度敏感性的观察也支持了这一点，其中区域内和区域间的分布信息比单个区域提供了更好的预测。与局部多变量和单变量模型相比，在多项研究中进行直接比较时，这些优势导致全脑多变量模型的效应值更大（图3）。由于与基础神经表示最匹配的模型可能最适合，因此模型比较（单变量与多变量，局部区域与分布式网络）提供了一种使用神经影像技术来探查基础大脑表示的性质的方法。

可重复性

在研究和实验室之间重现结果的能力是科学进步的关键部分。无法复制的发现可能只是误报，或者其影响可能与上下文有关，以至于累积的科学进步和在实际应用中的实用性。关于科学发现的可重复性的问题已经成为跨领域的主要问题。但是，在涉及大量测试的领域，例如在神经成像和遗传学领域，建立可再现的发现尤其成问题。当大量上下文变量可能会改变过程的工作方式时（例如在转化神经科学和心理学的某些领域），这也是一个问题。基于神经影像的大脑到大脑的映射位于这些危险区域的交叉点。

图3多种脑模型性能的比较，可以发现相对于其他单一的脑影像分析模型，多变量的全脑模型可以在更大的体素尺度以及精度上获得更加优秀的预测效果。

在嘈杂的体素水平测量和涉及的大量测试的结合下，体素层面映射的可重复性受到限制。所应用的多重比较阈值越严格，具有相同真实基础神经活动的研究产生相同结果的可能性就越小。实际上，较低的统计能力可以确保每个研究都能识别出真实的微小部分（通常是不同部分）的底层模式。相比之下，基于签名的方法将大脑信息集成到针对新的独立个体的单个优化预测和测试预测中。这避免了进行多次比较的需要，并在测试实验干预如何影响模式表达时提供了效应大小的无偏估计。

在多个大脑区域上汇总信息可以产生效果更大的测量值。尽管局部效应的大小是有限的（通常在Cohen’s d = 0.5左右为“中等”效应），但在独立研究中评估时，脑部信号通常显示出较大的效应大小。例如，一种称为神经痛标志（Neurologic Pain Signature，NPS）的疼痛预测模型，对高或低疼痛的效果大小在d = 1.2至3.50之间。在最近一项对来自全球不同地点的20项研究中的603名被试的分析中，在95.4％的被试中，NPS对疼痛和休息的反应更大，Hedges'g的影响大小为g = 2.30，95％CI [1.92，2.69 ]跨研究。图片诱导的负性情绪签名（Picture-Induced Negative Emotion Signature，PINES）将情绪性负数与中性图像区分开，效果大小为d = 4.69。对于观察到的高疼痛和低疼痛，替代疼痛标志产生的效应大小在d =1.63至1.75之间。

这些签名已在多项研究中进行了评估，这些研究以不同的方式测试了它们的特性。NPS对疼痛的反应能力已在14个独立发表的研究队列和一项大规模分析中得到了证实，这些研究已开始表征其NPS(神经痛标志)的敏感性、特异性以及对药物和心理干预的反应。它对某些干预措施有反应，包括阿片类瑞芬太尼、5-羟色胺再摄取抑制剂西酞普兰，以及一些可能影响疼痛预期的调节范式。但是，它对他人（包括认知重新评估，感知的控制，奖励和安慰剂）不敏感，表明它跟踪某些有助于疼痛自我报告的神经生理过程，而对其他过程则不敏感。PINES（图片诱导的负性情绪签名）反应已与NPS双重分离，表明它可以测量一组独特的大脑过程，并已被用作情绪调节的结果。在后者的研究中，以“强硬”个体为视角可以减少PINES对负性图像的反应。NPS对躯体性疼痛的反应和VPS对替代性疼痛的双重解离已在另外两项独立研究中重复进行。

干预的新目标（和措施）

考虑到与基础过程的更好匹配和改进的测量特性，多变量脑模型是直接或间接影响神经活动（例如分别为神经刺激或神经反馈）的因果干预措施的有希望的目标。群体级别大脑的“签名”在评估这些属性时特别有用，因为它们可以进行交叉研究测试和促进科学发展。事实证明，针对多变量大脑模型的大脑刺激是有效的，特别是在塑造记忆力方面。这些技术通常旨在改变单个大脑区域的活动，但是它们的作用可能更广泛，并且会改变分布在多个大脑系统中的表征。在这种情况下，通过测量神经刺激改变的目标过程，并确定对行为或临床结果有影响的大脑介质，多元标记物可以作为结果的量度。

构建验证：使用生物学基础的模型了解心理事件

将大脑映射到头脑的工作的核心是定义应映射到大脑过程的精神事件的类别。痛苦的热、冷和化学刺激都涉及不同的外周受体和神经元群体。他们的经历会唤起大脑中类似表示的单一类型“疼痛”的所有示例吗？还是“疼痛”类别更像“家具”类别，这是人类思维和语言的便利？相反，我们使用“疼痛”一词来形容与人身伤害和浪漫拒绝有关的感觉。他们的大脑表示是否不同，还是应该将“疼痛”类别扩展到非躯体事件？这些问题和其他问题的答案决定了我们如何概念化思维和大脑的组织，并且通常也具有实际意义。造成他人身体疼痛是起诉的依据；根据法律，造成情感上的痛苦是否应被视为同样有害？

最终，所有心理类别都是心理“构造”，即概念类别被组织为心理事件分类法。传统上，心理构造是基于现象学和语言用法而非生物学系统的相似性来定义的“民间类别”。同样，历史上，疾病类别基于可观察到的症状（胃痛，发抖等），而不是生物学原因（细菌，病毒等）。根据疾病的根本生物学病理学对疾病进行重新分类是将现代同种疗法药物与先前的疾病诊断和治疗系统区分开来的重要概念转变。研究领域标准（RDoC）框架等最新举措试图在我们对精神疾病的思考方式上实现类似的转变。

无论结果是疾病类别还是其他精神构造，比较大脑模型及其敏感性和特异性模式都可以用来验证现有的精神构造，甚至可以推断出新的精神构造，从而利用大脑来重新定义我们对思想的看法。目前，旨在开发多元大脑模型的研究隐含地尝试验证结构，但没有系统地利用结构验证理论。通过正式构造开发方法向显式评估大脑模型的范式转变可能会导致对大脑和思维的更好理解。

构建验证

结构验证原则性的方法来定义和验证结构可以在测量理论中找到，但他们使用的策略很少被应用到神经科学中。一个中心原则是承认构造是不可直接观察的；相反，它们是从多个度量（称为指标）的性能中推断出来的。例如，心理测量学研究假设“一般智力”或“数学能力”等结构不能直接观察，但数学和阅读测试可以用作反映潜在潜在能力的指标。如果具有不同材料和呈现格式的不同类型的数学测试相互关联（收敛有效性），可以推断它们都测量（加载）同一结构，并且可以开发比任何单一指标更好地跟踪潜在结构的复合测量。如果数学测试与另一组连贯的测试（判别效度）相对不相关，比如说，语言表现，那么可以推断，这些测试衡量的是“数学能力”，而不是“一般智力”，即遵循指令的意愿等。这种方法使用指标之间的相似结构来推断其他不可观察结构的性质。结构验证理论提供了评估多变量脑模型的原则性方法，并为使用脑模型推断哪些结构具有连贯的神经生理学机制提供了途径。大脑模型提供了潜在结构的假定测量（即潜在指标）。正如单个测试项目可以合并在一起以测量一个结构（例如，临床清单的子尺度），跨体素和系统的大脑活动可以合并以创建与潜在结构相关的测量。

例如，如果同一个大脑测量被多种不同类型的疼痛激活，而不是被其他情绪或认知过程的操纵激活，那么作为“疼痛”结构的测量，它既显示了收敛有效性，也显示了判别有效性。类似地，如果一个大脑测量值与需要运动反应抑制的多个任务的表现相关，那么作为“抑制”结构的测量值，它显示出一些收敛的有效性，但是，结构的边界条件是什么还不清楚。大脑模式可以狭义地与运动抑制相关；与包含动作、思想、感知和记忆的更广泛的“抑制”结构相关；也可以非常广泛地与“认知控制”相关。该模式对聚合和鉴别证据操作模式敏感且具体相反，分别识别结构。在抑制的例子中，这样的分析表明新的任务是有信息的；例如，记忆抑制和其他与运动抑制没有明显关系的认知控制任务。认识到结构是推断出来的，这就清楚地表明，我们需要明确的策略来推断大脑模型实际测量的是什么，反过来，通过在大脑层面识别具有收敛和判别有效性的结构来重新确定心理分类。

从这个角度来看，最近对跨语境和刺激模式的概括性的研究开始建立情感价效和其他结构的聚合效度。一些研究包括多语境和多假设结构的操作，在同一研究中建立收敛和判别效度。对研究中的个体级图像数据进行“大规模分析”可以扩展这一过程，允许系统地对多个结构进行采样，每个结构都有多个不同的操作，这在个别研究中是困难的。例如，Kragel等人分析了来自疼痛，负面情绪和认知控制的被试水平的对比图像。选择了18个研究（有270名被试），以包括三种不同的方法来使每种推定的构建体参与（例如，有害的热、机械和内脏刺激，用于构建“疼痛”），每种方法都有两项代表性研究。对各种构造，方法和研究的相似性结构进行建模，为前扣带回皮层中“疼痛”和腹侧前额叶皮层中“负性情绪”的常见表示提供了收敛的有效性。这项研究还提供了证据，即“认知控制”可能无法清晰地映射到一种潜在的大脑表征上，而应该细分为更精细的亚型。

验证结构的另一种方法是外部有效性，这涉及到使用大脑模型来预测现实世界的结果。例如，在观看项目时腹侧纹状体的脑反应预测随后的购买决定，腹内侧前额叶反应预测长期行为，例如尝试戒烟，杏仁核活动预示着未来的焦虑。更复杂的多变量模式预测慢性疼痛的进展，以及前额叶脑刺激是否是治疗抑郁症的有效方法。在另一系列的研究中，一项研究中开发的六种不同情绪类型的大脑信号被应用于一项独立研究中的静息状态数据，并显示与情绪和个性特征的个体差异相关。具有较高抑郁症状自我报告的个体具有更大的“悲伤”特征的表达，而焦虑的个体表现出更大的“恐惧”特征的表达。

其他研究已经通过干预验证了这些结构。Rose等人使用searchlight映射识别功能磁共振成像模式活动与工作记忆中某个项目相关的区域（即面部、文字或运动方向）。他们发现，随着时间的推移，持续活动性下降到基线水平，但这些区域的经颅磁刺激优先激活了记忆相关模式，增强了随后的记忆。包括大脑刺激、神经反馈和药理学在内的干预措施可以通过表明它们对行为的干预效果来帮助验证大脑测量。直接操纵大脑也能对所测大脑系统的因果效应提供更有力的推论。

总体级别的模型可以通过对各个研究进行测试，从而将这些各种类型的验证结合在一起。NPS已根据来自世界各地许多实验室的数据进行了测试，从而可以临时（持续）识别其测量的结构（图4）。它跟踪由有害的多种外周刺激引起的疼痛，包括热、机械、电、辣椒素增强的热、激光和内脏刺激，证明了诱发疼痛的收敛有效性。它对非有害的温暖刺激、威胁提示、社交排斥相关的刺激以及观察到的疼痛或反感的图像没有反应，从而证明了对某些相关的非躯体过程的判别有效性尽管它对其他形式的临床疼痛的普遍性仍然未知，并且在显示对被认为可调节疼痛的干预措施（例如鸦片瑞芬太尼）的反应中，但它在预测纤维肌痛患者超敏反应方面具有外部有效性。

图4 多体素尺度的模型预测能力测试：大脑范围内的多变量模型可以通过检查模式表达(即模式表达)来理解。不同的大脑网络和区域会产生不同的结果。

挑战和注意事项

除了模型参数解释面临的挑战外，研究人员常常试图超越数据，对模型的生物学意义作出广泛的结论。例如，如果一个模型预测行为、区分情感类别等，它可能被认为反映了大脑系统，这些系统是（1）预先连接的或生物决定的（即独立于学习或经验而发生的），（2）稳定的或对环境不变的（新样本、个体、测试条件、身体代谢状态等），（3）优于其他解释（该分类方案是“正确”或“最佳”分类）。这些结论都不是我们在这里讨论的模型或例子的逻辑后遗症。然而，有些是可测试的：新的样本可以被评估，至少在跨个体概括的模型中是这样，并且上下文可以系统地改变。一个大脑模型的先天性可以通过评估它在整个发展过程中，或在具有明显不同文化和经验的人群中间接推断出来。这种变化是建筑发展的核心。

朝着生物驱动的构造发展

通过明确地识别知识缺口，研究项目可以更加有意识和有计划地朝着识别大脑对精神状态和过程的表征的目标前进。这个过程可能是一个反复的过程：开发预测和解释心理结构的大脑模型将需要频繁地修改大脑模型和结构定义。一个目标是最大化简单结构：迭代地重新构造心理构造和脑测量，以尽可能接近它们之间的1:1对应关系。对模型的修改将教会我们大脑如何在我们目前定义它们时对精神状态进行编码，而对结构的修改将帮助我们开发关于大脑如何工作的新的、神经科学知识丰富的想法。

神经影像学导致了心理学和神经科学之间的紧张关系，因为研究人员对研究大脑可以告诉我们关于大脑的信息采取了不同的立场。这种紧张的一种表现是一系列的文章，质疑神经影像学是否教会了我们大脑如何工作。虽然对这一挑战有各种经验性的答案，但进展往往很难追踪，因为它不是以证明或反驳关于大脑的批判理论的形式出现，而是通过改变关于大脑如何工作的假设，这些假设通常是含蓄的、隐喻性的，并嵌入我们目前对数学、生物学和物理学的理解中。

例如，大脑的计算模型建立在传统的五感概念的基础上，这是一个基本的、隐含的概念，很少有认知科学家提出质疑。但是有多少感觉？神经科学告诉我们，不仅仅有一种“触摸”的感觉，而是多种类型的躯体感觉，它们是由不同的途径和机制所介导的（例如，单独的路径存在于轻触感、深层压力、疼痛压力、麻醉和其他躯体事件中）。对于许多目的，包括指定所涉及的计算过程和预测结果，这些不能集中在一起，像“触摸”这样的结构阻碍了理解和临床应用的进展。此外，一些神经科学的发现挑战了这样一种假设：我们的五种外部感觉彼此独立；例如，听觉信息以初级视觉皮层的活动模式编码，反之亦然。

“认知”、“情感”、“记忆”、“语言”等心理结构也是如此，每个心理结构内部都存在着有意义的变异，各心理结构之间也存在着有意义的相似性。生物学上的理解使我们能够发现有意义的范畴，以及关于假定的范畴（如“工作记忆”）如何受先前认为不相关的过程（如“炎症”）影响的新想法。如果我们愿意利用神经科学的洞察力做出新的推论，它可以教会我们很多关于大脑的知识。

结论：

一系列新的多变量预测模型正以一种新的、更加强大的方式将精神世界与大脑联系起来。在主要的认知，感知以及情绪等领域，这类研究模型对于心理行为和个体行为之间有较强的可重复性。并且该模型，有较强的适用性，并在某些情况下能对个人的研究提供更加精确的研究结果。而且这类的模型有着较强的泛化能力。这种多变量的脑影像分析模型，摆脱了以往独立地看待人的活动与大脑某个区域的联系，以一种总体思维，全局的角度看待行为与大脑神经活动的关系。这样的分析思路更贴近了思维的本质，能够更加精确的解释人类思维活动的本质。

如需原文及补充材料请加微信：siyingyxf 或者18983979082获取,如对思影课程感兴趣也可加此微信号咨询。